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INTRODUCTION 


On sait que la géométrie venue vraisemblablement au jour sous des 
influences utilitaires, à cependant précédé de beaucoup par son dévelop- 
pement théorique la science expérimentale : il en est résulté que la 
physique moderne, née quelque deux mille ans après Euclide a attendu 
trois siècles avant de se demander si le schéma euclidien était bien le plus 
adéquat à l'expérimentation. De même, lorsque la statistique scientifique 
s'est constituée, elle s'est trouvée avoir à sa disposition, dans le calcul 
des probabilités, un instrument théorique déjà perfectionné, et dont les 
usagers avaient acquis certaines habitudes de pensée, Parmi ces habitu- 
des, la plus importante consistait à ‘'penser continu!'! : que ce soit là une 
nécessité pratique, ce n'est pas contestable, le continu étant le seul objet 
sur lequel le mathématicien sache travailler efficacement. Mais les sta- 
tisticiens savent bien que l'expérience sur laquelle ils opèrent est essen- 
tiellement discontinue. 


Si j'insiste sur une idée aussi évidente, c'est qu'elle est généralement 
admise d'une manière trop implicite pour être consciente ; et c'est qu'en 
outre, si cette idée n'a pas grande importance pratique dans les calculs 
habituels, au contraire, les calculs que je vais développer par la suite 
n'auraient aucun sens si l'essentielle discontinuité des faits statistiques 
n'était pas constamment présente à l'esprit. 


Eclairons cette remarque par un exemple : 


Le type des lois de probabilité dites ‘''continues'' est certainement la 
loi des erreurs d'observations. Pour fixer les idées, si l'on mesure à la 
chaîne d'arpenteur la distance de deux lieux géographiques À et B, on 
trouvera des résultats qui varieront suivant une loi de GAUSS autour d'une 
valeur moyenne L.. 


La probabilité d'un écart moindre que x sera, dit-on 


X x? 


. Sara Nr te) 


Log LAS 
2x 


F {x) étant une fonction continue de x. Mais si l'on regarde de plus près, 
»n se rendra compte qu'il est parfaitement absurde de considérer x comme 


ine variable continue. 
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Indépendamment de la précision pratique du procédé (qui sera au 
mieux de l'ordre du centimètre pour !, = 10 kilomètres), nous sommes 
incapables de concevoir x écrit en milliardièmes de microns par exem- 
ple (!) puisque nous sommes incapables de faire sur les instruments de 


mesure que nous possédons une lecture de cet ordre de grandeur : 


Nous ne rencontrerons donc jamais, avec nos instruments actuels, de 
résultat numérique, même faux, avec plus d'un certain nombre de déci- 
males : à supposer, par exemple, qu'il nous prenne fantaisie de déterminer 
la mesure précédente de f. à l'aide d'un cathétomètre, x ne varierait 
cependant pas de quantités inférieures au millième de micron. En sorte 
que F (x) n'est définie, expérimentalement, que pour des valeurs discrè- 
tes x,, x,, etc...Si donc on persiste à utiliser, parce que plus commode, 
la fonction de variable continue F (x), on devra ajouter la donnée dela 
plus petite différence x, - x, possédant un sens expérimental. Nous appel- 
lerons cette différence ''seuil de repérage. 


Ainsi donc, les résultats expérimentaux sur lesquels travaille Île 
statisticien forment toujours un ensemble discontinu - fini ou dénombra- 
ble - , mais qu'il peut être commode de représenter par une (ou plusieurs) 
variable continue : on précisera seulement que cette dernière doit être 
lquantifiée'', c'est-à-dire ne recevoir que certaines valeurs x:. 


La façon la plus simple de ‘quantifier'' x est de supposer que les x; 
sont en progression arithmétique, et de donner la raison I de cette pro- 
gression. Une variable x remplissant cette condition est plus adéquate 
qu'une autre à répérer le phénomène étudié ; nous l'appellerons une 
variable propre!!. 


En résumé, tandis que le mathématicien se contente de la fonction de 
probabilité F (x), le statisticien doit en outre avoir présent à l'espritles 


notions de variable propre et de seuil de repérage. 


Ces notions élucident complètement, par exemple, les classiques 
l'paradoxes'' des probabilités géométriques, Il est clair par exemple que 
si l'on choisit deux points au hasard sur une circonférence, la longueur de 
la corde qui les joint n'est pas une ‘variable propre!'! : il suffit de se 
représenter le cercle comme formé de cases d'égale grandeur, à la façon 
d'un jeu de roulette : les longueurs des diverses cordes correspondantes 
ne sont pas en progression arithmétique. 


Ajoutons un mot : nous appellerons toujours événements les faits 
dont nous étudions la probabilité d'apparition, qu'il s'agisse d'évènements 
naturels, de résultats d'expérience, ou n'importe. 


OBJET DE CES RECHERCHES 


Dans les recherches habituelles, il est généralement admis que le 
statisticien connaît, ou peut connaître, non seulement les probabilités des 
événements, mais encore la (ou les) variable propre. Si l'on suppose 
effectivement que cette variable soit unique, il n'y a pas de difficulté sauf 
en ce qui concerne l'ordre des événements. Mais prenons l'exemple 
suivant : | 


Etude du tir à la cible, le seuil de repérage étant de un millimètre. 


On peut recouvrir la cible d'une courbe spiralée ou oscillante ayant 
un l'pas'! de un millimètre ; puis, sur cette courbe, mesurer au millimètre 
l'abscisse curviligne S, du point d'impact ; S sera évidemment une très 
mauvaise variable de repérage, et, pour des raisons géométriques, nous 
considérerons qu'il faut ici introduire deux variables, x et y : ce sontelles 
qui devront être regardées comme variables propres. 


Mais ce problème du choix des variables propres ne peut pas toujours 
être résolu directement. Cela tient d'une part à ce que la notion même de 
variable propre n'est pas toujours très claire : Par exemple, au jeu de la 
roulette on regarde comme événements distincts la chute de la bille dans 
chacune des 35 cases, abstraction faite ou non du nombre de tours de 
circonférence accomplis par la bille avant de s'immobiliser.Si l'onnote x 
la case et y Le nombre de tours, on obtient une description statistique du 
résultat beaucoup moins suggestive qu'avec la seule variable x + 35 y, 
laquelle suit sensiblement une loi de GAUSS, 
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D'autre part, il existe des cas où l'expérience ne fournit en aucune 
manière de variables propres, parce que de telles variables sont absurdes, 
au moins jusqu'à nouvel ordre ; supposons que l'on étudie la probabilité 
pour qu'un homme pris au hasard parmi les quelque deux milliards d'habi- 
tants de la terre parle le français, ou l'anglais, ou telle autre langue; 
ces langues sont en si grand nombre qu'il serait avantageux d'introduire 
dans le problème des méthodes continues. Pourtant on ne peut certaine- 
ment pas choisir rationnellement de variables de repérage, les faits lin- 
guistiques n'étant pas véritablement des faits ''ordonnés"'', 


Les faits statistiques non ordonnés, voilà ce que nous allons tenter 


d'étudier. Une telle étude pourra n'avoir pas d'autre fin qu'elle-même, - 
D'autres fois, nous pourrons être plus ambitieux : 


Par exemple, il est vraisemblable que les traits du caractère humain, 
impossibles à ordonner pour la plupart, sont des conséquences de la 
structure des chromosomes ; cette dernière est probablement, elle, sus- 
ceptible d'être caractérisée par des variables aléatoires, donc d'être 
ordonnée. En étudiant les fréquences des traits psychologiques, on peut 
espérer reconstituer l'ordre caché des phénomènes à l'échelle germinale, 


POSITION DU PROBLÈME 


Soit un ensemble d'événements e,.,, e,, ... e;... e,. Au cours de N 
épreuves, ces événements se sont produits respectivement &,, &,...@, 
fois. Nous nous proposons d'étudier l'''allure''de la distribution Fe vs 
et, plus précisément, de comparer cette distribution à un ensemble de 
nombres p, ... Pn >» indépendamment de leur ordre, de manière à estimer 
si les Sc ge se e;! peuvent être rangés dans un ordre où le k°"* évé- 


é comme possédant la probabilité p,. 


: 


nernent soit regar 


L'idée la plus simple qui vienne à l'esprit est de ranger les &; par 
ordre décroissant, les p, de même, et de comparer rang à rang. Cette 
méthode, outre qu'elle se prêterait beaucoup plus mal aux études théori- 
ques qu'à une réalisation numérique, est absolument inadmissible, Les @, 
ont en effet, avec les Np, des écarts pouvant être considérables et de 
signe quelconque : la probabilité pour que leur ordre de grandeur décrois- 
sant soit précisément celui des p, correspondants, sera, dans les cas 
usuels, très loin de l'unité. C'est donc à une comparaison en bloc qu'il faut 
recourir, et pour cela nous chercherons à former des fonctions de p,... 
PK **:Pn analogues aux moments classiques, 
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CHAPITRE PREMIER 


L'INSTRUMENT 


| - LES MOMENTS INTRINSÈQUES 


Nous nous proposons d'attacher aux n nombres p, » P2---Pn » des 
nombres jouant le rôle de ‘''moments'', mais indépendants de l'ordre des 
p;,: ce seront donc des fonctions symétriques de ceux-ci, Nous devrons 
renoncer à des fonctions linéaires, la seule fonction linéaire symétrique 
étant la somme, Et c'est précisément parce que nous utiliserons des 
fonctions non linéaires qu'il fallait préciser tout d'abord comme nous 
l'avons fait la notion d'événements distincts. 


Notre choix sera guidé par la remarque suivante : 


Si nous n'attachons aucune variable aléatoire aux événements e; , la 
seule l'opération'que nous puissions effectuer sur eux est le l'broduit logi- 
que'!', consistant, étant donnés deux groupes d'événements : 
ons Arenase, À. e, , à envisager l'événement ei rencontre de l'événement 
e; avec l'événement e: . Si les deux groupes e et e' sont indépendants, le 
groupe e!! satisfait à la règle des probabilités composées : 

de Û 
Pas té dés Pise 5 

Il est naturel d'imposer aux moments intrinsèques la condition de se 
combiner simplement par l'opération précédente. Le choix le plus naturel 
consiste en celui des quantités cr ss . Nous les appellerons ''moments 
intrinsèques d'ordre K'' et les désignerons par Ÿ (k). 


On a alors: CAT s.0 (k) D'(19 comme on s'enassure immédiatement: 
Li PR k+1 k+i 
ele P° y*à 7 Zi 2 p' 


L'exposant est noté K + 1 pour mettre en évidence la possibilité de 
désigner > p“*' par la notation E (p“). En particulier: Yo =1, et Y,,peut 
être appelé ''probabilité moyenne''. 

Nous avons donc réussi à attacher à une loi de probabilité (finie) des 
‘imoments'' ne dépendant pas de l'ordre des événements, et doués d'une 
propriété simple. Il est du reste évident que, réciproquement, une loi de 
probabilité à n évènements est complètement déterminée (intrinsèquement) 
par la connaissance des n-1 premiers moments : les p; sont alors les solu- 
tions du système symétrique : 
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Y« 


T 
+ 
we 

TD 

5 

L 


Ÿ (n-1) 


Les formules de NEWTON permettent de ramener la résolution de ce 
ème degré. 


Dares CR 


système à celle d'une équation dun 


Sans insister sur cette méthode, qui est purement théorique, remar- 
quons qu'elle s'applique encore si l'on définit des moments ''d'ordres 
fractionnaires. Quel que soit h , le système : 


il 

p/" + pyn DER re ph = (} (- ù 
2 

2/h = (£- | 

P a RON D EN © 2 h 1 
n 

pivh TASER. C7 = © (=- 1 


détermine les p;Vh comme racines d'une équation du n°"*degré. 


11 - FONCTION CARACTÉRISTIQUE INTRINSÈQUE 


Bien entendu, Y(K) est clairement définie même lorsque K n'est ni 


= 


entier ni fractionnaire ; ce qui nous conduit à envisager Ÿ comme une 
fonction caractéristique attachée à la distribution p; , mais indépendante 
de l'ordre des événements, Nous l'appellerons ‘'fonction caractéristique 
intrinsèque!'', le mot intrinsèque étant souvent sous-entendu dans cette 


étude sans risque de confusion. 


En désignant désormais par t la variable, il est clair que, pour une 
distribution finie, la connaissance de Ÿ (t}) partout est surabondante, 
Nous examinerons au chapitre II le cas général, mais dès maintenant 
voyons comment  (t) détermine intrinsèquement une loi finie à n évé- 
nements. 


Deux réponses théoriques à cette question ont été données au para- 
graphe précédent. Remarquons qu'en prenant, dans la seconde solution, 
h grand, on utilise les valeurs de Ÿ (t) au voisinage de t = - l,c'est-à-dire 
dans une région où Ÿ (t) est relativement grande. Etudions maintenant le 
voisinage de t =, d (t) tend vers o , sa partie principale étant pi 
en désignant par p, le plus grand des p: supposé unique (1). Donc : 

Lp,.= lim. = 9 (t) 
DER CS, STSEAE 


(1) Pour simplifier la rédaction, je supposerai dans la suite tous les p; différents, 
Les modifications nécessaires lorsqu'il n'en est pas ainsi sont évidentes, 
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Ayant ainsi déterminé p,,on appliquera la même méthode à ® (t)-pt*t, 
et l'on calculera de proche en proche les p; par ordre de grandeur décrois- 
sante, 


L'avantage de cette méthode est de donner explicitement les p;. En 
outre, elle s'appliquera sans changement aux probabilités dénombrables, 
le nombre n des événements n'étant pas intervenu dans le calcul. Elle nous 
apprend quelque chose de plus : pour qu'une fonction soit une fonction 
caractéristique, elle doit posséder un comportement asymptotique très 
particulier. 


Cela dit, nous ne devons pas nous faire d'illusion : les pj ne sont 
connus, dans la pratique, qu'à une certaine approximation, et la moindre 
erreur sur un p modifie considérablement ‘i- pour les grandes valeurs 
de t ; autrement dit : pour le but que nous nous étions proposé dans l'in- 
troduction, l'étude asymptotique de P 4 ne nous est d'aucun service. 


111 - LE PROBLÈME DE L’AJUSTEMENT 


Dans la pratique, la question se posera ainsi : 


Les p; ne sont connus qu'avec une certaine approximation; Y (t) 
est donc entachée d'erreurs : chercher une manière de caractériser 
Ÿ (t) réduisant autant que possible la part d'erreur, ou du moins la 
lllocalisant'', de façon que les erreurs les plus fortes soient rejetées le 
plus loin possible. 

Les moments intrinsèques répondent en partie à ce désideratum 
ŸY (o)=1 est connu exactement, et l'on se rendrait compte que l'erreur 
relative va en augmentant de Ÿs à (2) etc ... Mais ce procédé a le 
défaut de faire jouer un rôle spécial aux valeurs entières de t . En outre, 
il n'est pas bien commode de définir une courbe par la condition de passer 
par des points assignés. La seule méthode rationnelle pour éliminer le 
plus possible le rôle des valeurs asymptotiques est de se donner les 
dérivées successives de Ÿ (t) au point t=0o où Ÿ (t)est connue sans 


erreur, 


Nous poserons : 


Fe = Do) = 1 ; Poe Vo=ZpLp=E (Lp); P, Pr (D 7%) etc 


Les [,-, ou ''moments logarithmiques'', déterminent complètement 


la fonction entière Ÿ &: 


Calculons l'erreur quadratique probable sur By lorsqu'on prend 
comme estimation de p; la fréquence relative au cours de N épreuves, 


L'erreur étant : n 2 [ L“p+ K 1P]Ap , l'erreur quadratique 
probable est : 


=; 2 k-1 
N Sm =Ze LK5* (Lp+K)-2Z pL'P (Lp+K) 
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On voit qu'elle croît très vite avec K . Pour RER 
2 
Do ed 
(r,) N 


et nous verrons par la suite que le numérateur est en général de l'ordre 
de l'unité. 
Pour K =2, nous verrons que 9 est de l'ordre de Re exemple, 
KI 
Et pour les valeurs élevées de K , 0 est très supérieur à VNR 


On voit maintenant la méthode qui sera employée pour les problèmes 
d' l'ajustement intrinsèque!! : 


Soit si} un ensemble de fréquences expérimentales 


Soit ; P,} une loi de probabilité dépendant de 1 ou plusieurs paramètres 


Ne X,... Nous calculerons les [" ‘expérimentaux! 


Reg: PIS EME Re 


élnsiique: les: [Fa priori fie cNe oem, Col CURE AS, 0): 


Et nous ajusterons les À en égalant d'abord les F, , puis les FF, 
etc... 


Le premier |” non employé pourra fournir une mesure de la précision 
de l'ajustement, mais sous réserve de son erreur probable qui, nous 
l'avons vu, est vite considérable. 


Cette méthode, comme la méthode des moments en statistique clas- 
sique, est fondée sur des considérations très empiriques. Elle sera 
justifiée au chapitre suivant par l'étude de la continuité fonctionnelle 
de (9 (t). Mais, tout comme en statistique classique, il est peu probable 
que ce soit la ''meilleure'' méthode : nous reparlerons de cette question 
au chapitre III, 


Retenons simplement qu'elle est si commode qu'il sera toujours 
avantageux d'y recourir. 


Avant de donner des exemples, notons que les [‘ ont un inconvénient 
par rapport aux moments intrinsèques : ils ne se combinent pas simple- 
ment lorsqu'on fait le ''produit logique'' de deux ensembles d'événements. 
Pour remédier à ce défaut, il suffit d'introduire, à côté de Y (t), son 
logarithme que nous noterons : - ® (t). La fonction Y (t) est d'un manie- 
ment beaucoup plus pratique que % (t) ; nous la nommerons ‘fonction 
spécifique", Elle est additive pour le produit logique, ainsi que ses 
dérivées à l'origine que nous appellerons ''Imoments spécifiques'' et 
noteronssY,.; \, . YK 


Cnam (t)n = - L'@E) 


Donc : P= 5 gt = . PE REP p'3 2 "" 
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D'où, en faisant t = o : 


DÉS NS ND TEEN P Maeliss lie -2\ F3 


Y,= -[5 qui est positif jouera dans notre étude un rôle analogue à celui 
de l'écart-type en statistique classique et qui sera étudié au chapitre III. 
Au chapitre IV, nous verrons qu'il fournit une mesure très avantageuse 
de l'indépendance stochastique. Nous le nommerons ‘incertitude!'' et le 
noterons souvent H. 


La constante V = 2 (1; Mipe à tree L ,; que nous avons déjà 
rencontrée dans le calcul de l'erreur probable sur [; , jouera un rôle 
fondamental dans l'étude de la loi de GAUSS. Nous l'appellerons ‘'indice!'!, 
Elle est positive. 


IV - EXEMPLES 


1°/ Supposons les P; égaux : p; _ 
1 t+l 1 
LA t) = NE 
Alors : Y(t) LS 2 Sr ed 


On en conclut : 
F, =-%' (o)= -Ln.v =0. Et tous les moments spécifiques sontnuls 
à partir du second. 
La valeur de [; , est importante : c'est la plus faible possible pour 
une distribution à n événements. Nous y reviendrons au chapitre III. 
L' ''incertitude'' H = L n est la plus grande possible pour n événements. 


2°/ Supposons au contraire que P, = l tous les autres p; étant nuls, 
Alors : (te pr (t) MEmot 
L'incertitude est nulle : c'est sa plus faible valeur possible, 


La comparaison de ces deux cas montre que [5 semble lié à la 
concentration!" des probabilités autour d'un petit nombre de fortes va- 
leurs : H = o signifie parallèlement qu'il n'y a aucune incertitude dans la 
prévision des événements. 


3°/ Nous prendrons encore comme exemple les lois binômiaies 


=, + — 
+) 
; ES | 
Pour N = 1 la loi est Sans pr EM0 T6 OM E=07;00 
Ils, 1 
= = —— HIT es ti] = 0,24 
N =2 ET VE à 1 17030 
D 1 
= SES ES CHU : H = 2 = 3: 
N =3 e1 8 ea l 1,24 v= 0,40 
4°/ Etudions maintenant d'une manière systématique la loi ''polynô- 
miale'' : 
es N x; 4] Xn 
Poe Ta! Sn P, P, + Pa 
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dans laquelle il y a autant d'événements distincts que d'ensembles de 
nombres entiers Œ, ...@, dont la somme soit égale à N. Nous symboli- 
serons par {x} un tel ensemble.La fonction caractéristique s'écrit donc : 


Se P let 
# = Fa 


Il ne semble guère possible d'obtenir pour #(t) une expression 
exacte plus simple ; aussi en chercherons-nous seulement une évaluation 
approchée en faisant les hypothèses employées dans l'étude dite Mau X21! : 


N assez grand pour que, dans la somme précédente, seules les va- 
leurs de & voisines de Np; donnent une contribution appréciable ; assez 
grand aussi pour que la formule de STIRLING soit applicable à ces ; 

à Te Rs LE £ 

Posons alors : N Pot "pr ++ les K; étant des nombres dont 
les valeurs possibles, pour un indice i donné, varient de quantités 
entières. En outre : - KPS=N oO 


Ona: LP{aj# (N+-)LN-E RM EE Ge LE 


D'où sans difficulté : 


-LPHNE et ef nets 


Z L'(Np+K)-LN+n-1| : 
N 


Le 

le 

La partie principale de - LP se réduit alors à : 
K£? 

rs 1 

L P#XE No. TOUT A 


Pi 


en tenant compte de E K; = 0, et A ne dépendant pas des K; 


Donc P {a} s'écrit : 


L'exposant est ce que, dans la mesure de l'ajustement, on appelle le 
X?, La fonction caractéristique est : 


lt - (st —— 

D) ANNEE WE 
(x 

où le symbole # exprime une sommation pour tous les°K; dont la somme 


est nulle. Nous admettrons que cette sommation équivaut à une intégration 


en regardant les K; comme des variables continues : 2 


(t pr 

lt PVR 

SRE ee. rene de, (9 
CR ET tp) ue 
n - 1 

en désignant par D le domaine x, = - Lin nn tie- c QuE An LESO EX Lee ue 


Xn varient de - co à + co . L'exposant, dans l'intégrale, étant une forme 
quadratique à n-l variable, si l'on désigne par B la valeur de l'intégrale 
pour t=0 , il suffit de poser (1+t) x? = u;? pour obtenir : 

CET B 


(VIH) 
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En faisant t = o , on voit que AB = 1 


D'où finalement D (Lt) # 


RATS 


Et par suite : P (t) + Kt +1 (1+t) 

Nous verrons par la suite que cette formule exprime intrinsèquement 
le fait bien connu que, pour N grand, la loi du polynôme se comporte 
comme une loi de GAUSS à n-1 variables. 


L'incertitude a pour partie principale : H% a LN 


L'indice est : Vis 21) (ol) =n- 1. 


V - CAS DES PROBABILITÉS DÉNOMBRABLES 


Ce cas ne présente aucune difficulté spéciale. Sa seule particularité 
consiste en ce que la fonction caractéristique y est définie par une série, 
et n'existe pas pour toutes les valeurs de t. Il peut en résulter que les 
moments logarithmiques ou spécifiques n'existent pas, ou pas tous, ou ne 
déterminent plus certainement la loi. 


Pour ia commodité, nous supposerons les p rangés par grandeurs 
décroissantes. 


Nous aurons, par définition : % 44 dt “AL a es FAO, 


Le second membre étant une série à termes positifs, convergente 
pour t = 0, et par conséquent pour toute valeur positive de t. 


< Plus généralement, si la série converge pour t = t', elle converge 
pour toute valeur t y t'. Si elle diverge pour t=t!, elle diverge pour 
t Ç{ t". Si l'on partage en deux classes les valeurs de t pour lesquelles la 
série ou converge, ou diverge, ou établit une coupure qui définit un 
nombre œ. 


Ce dernier est du reste sûrement compris entre O(pour lequella série 
converge) et -1 (pour lequel la série diverge). Donc il existe une borne de 
convergence à telle que la série converge pour t > x etdiverge pour t <@, 
D'ailleurs, pour t =@, il peut arriver soit qu'elle converge, soit qu'elle 
diverge. 


Ce sont là des propriétés très simples, et du reste bien connues, des 
séries de DIRICHLET. 


Plus généralement, on peut donner à t des valeurs imaginaires : on 
verra (sans difficulté) que la série converge ou diverge suivant que la par- 
tie réelle de t, R (t) est supérieure ou inférieure à «. Pour R (t) = on ne 
peut rien dire de général. 


Ainsi 4 (t) est définie dans le demi-plan R (t}>x. Ilest facile de 
voir qu'elle est holomorphe dans ce domaine : soit en effet toune valeur 
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de t dont la partie réelle soit supérieurs à œ. Considérons un nombre 
réel $ tel que : ax <fB<R (to). 

La série dérivée terme à terme 2 p;'*toLp, a ses termes inférieurs 
en module à ceux de Z pe . Autrement dit, lorsque to varie de manière 
que R (to) reste supérieur à fi , la série dérivée converge uniformément : 
elle est donc la dérivée de dt) , et dt) est holomorphe dans le domaine 
R (t)> f quel que soit B>a c.q.f.d. 

La suite des dérivées de () (t) au point ff détermine donc ( (t) qui est 


ainsi caractérisée par une suite de ''moments!! : 


1 Ed 
Zip re Zp ee etc... En particulier si à <o ,  (t) est déter- 
minée par les moments logarithmiques. 


Il nous reste à montrer que () (t) détermine les pr 


Montrons d'abord qu'une série telle que (t)tendvers 0 pour t w æ . 
Il est possible, en effet, quel que soit € , de choisir t assez grand pour 
que LE € ; pourvu que p, soit <1. Il en sera de même de b. Rico en 
Nous aurons alors : p,i*t<ep, p,!l" < ep, ...... 


Donc : DFE Te DD...) 7e 


Cherchons maintenant la partie principale de ( (t) : les p; sont tous < p 
et <p, à partir d'un certain rang K+1 (sinon Z;; serait divergente),. 


Posons : œ(t) = bi Vafrk + ©, (t)] 


,(t) est une série de même forme que () (t), dont tous les termes sont<1 
et qui converge pour t = o. Le raisonnement fait précédemment montre que 
(tend vers 0 pour to . Donc : 


Loh(t) = (1+t) Lip, be (Ko. (t)) 


1 » 


montre que : 
Lp, = lim. LA] 
LACOSTE 


d (t) détermine ainsi p,. On aura ensuite 


Et : eo à à 


Connaissant ,, on déterminera comme précédemment le premier 
p;<p,. Et ainsi de proche en proche «) (t) détermine tous les p:. 


On peut, comme exemple, envisager la loi ‘ P; = qui se rencontre, 
asymptotiquement, dans l'étude des fractions continues, Sa fonction 


caractéristique : 1 
txt ———— 
ds À 2 2 (EH) 


introduit la fonction € de RIEMANN. 
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Il eût été souhaitable d'avoir un résultat simple pour la loi de POISSON, 
m 

Malheureusement, la fonction de S ETS quis'introduit ici ne paraît 
guère susceptible d'être ramenée à une forme plus simple. Je pense qu'il 
faudra se contenter de calculer numériquement les premiers moments 
logarithmiques de la loi de POISSON sous la forme d'une table suivant les 
valeurs du paramètre : il est facile de voir que le domaine d'holomorphie, 
pour cette loi, comprend tout le demi-plan ouvert : R(t) >- 1 


Remarquons, en terminant, qu'une fonction ne sera pas en général 
fonction caractéristique d'une loi de probabilité dénombrable : elle ne peut 
l'être qu'à condition de posséder les propriétés asymptotiques que nous 
avons étudiées pour déterminer les p; . Au contraire nous verrons qu'en 
étendant la définition de it) aux distributions dites ‘'continues'', la 
fonction caractéristique ne sera plus astreinte en apparence du moins qu'à 
des conditions d'inégalité (sauf la condition ®,= 1) 


», 
ET... 
x. res : | > = 
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L. 


ver s, 
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CHAPITRE II 


ETUDE INTRINSËQUE D'UNE LOI CONTINUE 


1 - PRÉLIMINAIRES 


Conformément à une remarque faite au début,nous ne regarderons une 
loi continue de distribution que comme un instrument mathématique 
commode pour étudier un grand nombre d'événements. Du point de vue 
intrinsèque, on peut toujours, pour les calculs, ranger ces événements par 
probabilités décroissantes - comme nous l'avons fait jusqu'à présent - ; 
en sorte que les fonctions que nous rencontrerons dans cette étude pour- 
ront toujours être supposées définies sur une demi-droite seulement (dans 
le cas d'une variable),et non croissantes. En outre, on supposera toujours 
que la variable employée est une ''variable propre!'', et l'on donnera le 
l'seuil de repérage! Ax = . Ce dernier sera supposé assez petit pour que 
l'on puisse remplacer une expression de la forme Z:f(x;) A x; par l'inté- 
grale ol (ixhodx. 


Cette façon de procéder ne donne lieu à aucune difficulté pour les 
distributions symétriques et à un seul sommet. C'est ainsi que, dans 
l'étude intrinsèque, la loi de GAUSS : 

1 C3 X- xo)? 
ydx =————e 202 dx (-0o ; +) 
a V2r 


sera remplacée par la loi monotone ''équivalente 


- (2 x)° 
2 20e 


d (2 x) sle.1.4-04) 


où, pour une valeur donnée de y, on a ajouté les valeurs absolues des x 
correspondantes,en conservant le seuil de repérage. En changeant de 
variable propre, on peut remplacer x par 5 et le seuil de repérage 
A x Fe 7 Au devient, es la variable u 25 Fe . La loi de us'écrit 


alors: -u 
2 


Marins 


dus cu et 00. ) 
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Il n'y a plus aucun intérêt à introduire l'écart type ; on peut toujours 
le prendre égal à V2 en modifiant seulement le sèuil de repérage. On 
pourra appeler variable ''réduite'' la variable u précédente. 


Une question plus délicate se pose dans l'étude intrinsèque des lois 
dissymétriques ou à plusieurs sommets, Du point de vue pratique, on 
pourrait repasser par les valeurs discontinues f(x;i), les ranger par gran- 
deurs décroissantes, et refaire l'interpolation sur ces valeurs. Mais le 
problème théorique se résout aisément de la manière suivante : 


Nous ne ferons sur f(x) pas d'autre hypothèse que de la supposer 
mesurable - et, ici, positive. 


Soit alors u la mesure de l'ensemble sur lequel F(x)>=> y . u est une 
fonction non croissante de y, qui ne possède donc que des singularités de 
première espèce. Pour une telle singularité y,, attribuons à u toutes les 
valeurs comprises entre les limites d'indétermination : 


u (y, - o) et u (y, + 0). Dès lors u ne peut passer d'une valeur à une 
autre sans franchir toutes les valeurs intermédiaires, et chacune de ces 
valeurs intermédiaires n'est prise ou qu'une fois, ou pour tout un segment 
de l'axe des y.On peut donc regarder y comme une fonction non croissante 
de u,fonction uniforme sauf aux points de discontinuité où elle prend toutes 
les valeurs intermédiaires entre y (u, - o) et y (u2 + o). On peut conven- 
tionnellement supprimer ces valeurs intermédiaires et obtenir ainsi comme 
une fonction uniforme et monotone de u, définie dans un intervalle qui sera 
au plus (0, + }),. 


La variable u est du reste une fonction de x définie partout, et l'on 


voit aisément, par la définition même de u, que pour toute fonction continue 
+00 


+00 
g (y), l'intégrale de LEBESGUE fe g (y) dx est égale à sf g (y)du, cette 
Æ Oo 


dernière étant une intégrale de RIEMANN. Nous dirons que y (u) est 
l'image monotone! de y (x). 


En particulier, si Jess (x) dx est la probabilité de l'ensemble e, 
(0) 


sur lequel y, est supérieur à une valeur donnée y , on peut la remplacer 


Uo 
par 7. Y(u) du. 


L'image monotone y (u) de la distribution y (x) est donc équivalente à 
cette dernière du point de vue intrinsèque. Il est du reste évident qu'elle 
est unique, tandis qu'à une fonction non croissante y (u) il correspond une 
infinie variété de distributions y (x), lesquelles correspondent, dans le 
domaine continu, à toutes les permutations que l'on peut effectuer sur une 
suite de probabilités discontinues D boue 


Dans la suite, l'étude intrinsèque théorique d'une distribution sera 
toujours faite sur l'image monotone ; mais dans la pratique on se 


rappellera que : 
à g (y) du = | g (y) dx 


du moins pour g continue, seul cas que nous rencontrerons. 
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11 - FONCTION CARACTÉRISTIQUE INTRINSÈQUE 


Supposons que des événements e, , e2 , ... ei ..., en nombre élevé 
ou en infinité dénombrable, aient des probabilités p, , p, ... rangées pour 
la commodité par grandeurs décroissantes ; admettons de plus que ces 
probabilités puissent se représenter approximativement par les valeurs 
F4) A x, f(x) A x, du produit F(x)A x pour des Ax égaux entre eux. Nous 
dirons que x est une variable propre, à l'aide de laquelle la distribution 
est sensiblement représentée par une densité de probabilité f (x), le seuil 


; 1 
de repérage étant PF = À x. Nous aurons du reste : 
xXo œo 
2 f(x) TAxE soit sensiblement L f(x) dx = 1 
1 


Il est possible de faire d'autres conventions, avec lesquelles la 
dernière égalité aurait lieu rigoureusement : mais comme elles ne me 
dispenseraient pas, dans la suite, d'approximations de ce type, onne 
ferait que compliquer l'exposition en y recourant ; nous admettrons tou- 
jours, dans la suite, la possibilité de remplacer les sommes par les 
intégrales correspondantes, Cela posé, nous avons appelé fonction carac - 
téristique intrinsèque la fonction : 


1+t 


don =. fix) æ (dr) 


+t La 
Pw= ( À x) Z F(xi) À x; soit sensiblement _. sh M dx 
p Gr TE 


Le seuil de repérage ne figurant que par le terme exponentiel pf, on 
songe à l'éliminer en posant : 


p(t) = - Ld(t On voit que Pb ne dépendra plus du seuil de repé - 
rage, et comme, d'autre part, on doit avoir @(o = 0; (+ définit F(x 
au seuil de repérage près aussi bien que d(t). Nous verrons qu'effective- 
ment Œ') caractérise f(x) , aussi peut-on l'appeler''fonction spécifique"! 


Le calcul précédent introduit d'autre part la fonction : 
Doy= 7 f'*t dx qui jouera un grand rôle dans la suite et que nous appel - 
lerons ‘fonction caractéristique réduite!'. 


De même, à côté des moments logarithmiques Free tetch TE gmous 
utiliserons parfois les moments réduits : 


y, = FL Fax Vs.) | L'f ox 


Il convient de noter que l'indice v=2 ([ -l1 lee. Ji.) Cat sa 
valeur n'est autre que (y et ne dépend donc pas du seuil de repérage. 
Une dernière remarque : la fonction f (x) n'est en somme assujettie 
" 
qu'à la condition : ". fx dx # p, ; ne serait-il pas possible, dans ces 
Xi 


pe = . Re : 
conditions, de choisir f{,) de manière à avoir rigoureusement : 
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14E IS 
2 p; Eye PMOUet 
Il n'en est rien : nous verrons que () (t) est arbitraire dans de très 


larges limites, tandis que 2 p;'‘* est astreinte à des conditions très 


restrictives concernant son comportement asymptotique ; nous retrouvons 
ici le fait que l'allure de (ty) pour les valeurs élevées de t n'est pas 
significative pour le statisticien. 


111 - ETUDE DE LA FONCTION CARACTÉRISTIQUE RÉDUITE (1) 


- RE da 
En vue d'établir que la fonction spécifique "= DE re Létt) carac- 
térise une distribution intrinsèque, nous commencerons par étudier la 
_. OU RILEE 
fonction  (t) = cu fo dx, où t peut recevoir n'importe quelle valeur, 
(e) 


réelle ou complexe, et f** étant toujours pris avec la détermination qui 
est réelle pour t réel, 


Premier cas. Nous supposerons d'abord que f(+0o) , borne supérieure de 
la fonction non croissante f(x), existe et soit finie. Comme f(x) est 


+00 

positive, et que vs F(x) dx existe, F(x) est inférieure à l'unité à partir 
1+t 

d'une certaine valeur x. Pour x>=>xo, f(x décroit en module lorsque 


la partie réelle de t augmente. Soit u cette partie réelle, v la partie 


- : : Pr oc ; Fe 1+Uo 
imaginaire ; si l'intégrale : F(x dx a un sens pour une certaine 
c re +® j+u+iv 
valeur de us il en sera de même de F0 dx quel que soit u us. 
Xo 


Et par suite : 


A, Xo de + : 
D'ates ps F dx + “+ F7 dx 
o Xo 


aura un sens pour toute valeur de t dont la partie réelle sera supérieure 


s 


a Uo. 


Si au contraire (t) n'a pas de sens pour u,,elle n'en aura pas davan- 
tage pour R (t)<uo. On en conclut que « (t) est définie dans le demi-plan 
à droite d'une certaine parallèle à l'axe imaginaire, le comportementsur 
la frontière pouvant d'ailleurs être quelconque. En faisantt=oett =-1l 
on voit que ce domaine contient au moins le demi-plan fermé à droite de 
l'axe imaginaire, et au plus le demi-plan ouvert à droite de R (t) = - 1; 


(1) Dans tout ce qui suit,afin d'éviter une rupture dans la continuité de l'exposition, 
les démonstrations seront faites sans rien supposer de connu en dehors des théorèmes 
tout à fait classiques. 
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à moins toutefois que f(x) ne s'annule pour une valeur finie de x, auquel 
cas  (t) est définie dans tout le plan. 


Le raisonnement précédent montre en outre que l'intégrale : 


A 1+t : £ 
Li dx converge uniformément par rapport à t dans le domaine 
œo 
R (t)}>œus+e quel que soit >0 pourvu que / F''"at converge pour 


R (t) = uo. Donc d (t) possède une dérivée dans ce domaine, et comme, de 
par sa définition, c'est une fonction uniforme de t, le domaine R (t)>u+e 
est un domaine d'holomorphie, On notera que ce domaine comprend au 
moins le demi-plan ouvert à droite de l'axe imaginaire. 


Cas général. Si f (x)n'est pas bornée au voisinage de l'origine, on décom- 
posera (t) en deux parties par le nombre x, tel que :f(x, + o)1 etque 


DE) 
gts fr" dx to FT ax = ®(t)+ Ÿ,(t) 


,(t) s'étudie comme précédemment, et @, (t) conduit à des conclusions 
analogues mais inversées : son domaine de définition est le demi-plan à 
gauche’ d'une certaine droite R (t) = us, son domaine d'holomorphie étant 
ce même demi-plan ouvert. D'ailleurs u) peut être infini, mais n'est 
jamais inférieur à l'unité. Si donc u, est l'abscisse inférieure du domaine 
de ®,(t), les circonstances suivantes pourront se rencontrer : 


1°/ u, =œ. ® (t) est holomorphe dans un demi-plan. 

2°/ us fini, mais supérieur à u,. o (t) est holomorphe dans l'inter- 
valle ouvert limité par deux parallèles à l'axe imaginaire. 

3°/ u, = u3 = 1. db (t) n'est définie que sur l'axe imaginaire. 


Voici des exemples de ces diverses circonstances : 


—(1+t)x2 


Loi de GAUSS f(x) = … et de ® (= E qe & dx 


es 2 Il LPS : 
t) = Le domaine de définition comprend tout ledemi- 

® (t) es AT P 

plan ouvert à droite de R (t) = - 1. & (t) est uniforme et holomorphe dans 

ce domaine ; on peut la prolonger analytiquement dans tout le plan, mais 

ainsi prolongée elle ne peut plus être regardée comme fonction caractéris- 

tique et cesse du reste d'être uniforme. 


œ 
22 1 2 1rE dx 
Loi de CAUCHY : f(x) == p(t) = G) L TH) TE 


= 1 Il 
d(t) est définie et holomorphe dans le demi-plan R (1+t) > 7ouR (t)>- >: 
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En particulier, © (t) est holomorphe à l'origine,et y possède des dérivées 
de tous ordres qui la caractérisent. Ainsi, les moments logarithmiques 
CT, , lo , etc... existent même pour la loi de CAUCHY, et, comme nous 
l'établirons ultérieurement, ils la caractérisent intrinsèquement. 


Pour obtenir une loi bornée non holomorphe à l'origine (et par suite 

non caractérisée par ses moments logarithmiques) il faut recourir à des 

A : 

fonctions à convergence très lente telles que ETS ES Pourecelle=cis 

le domaine de définition est le demi-plan fermé à droite de l'axe imagi- 

naire. Mais elle est caractérisée par ses dérivées au pointt = +1, 
c'est-à-dire : 

É(od bit EM (PET) etc, 


A une loi telle que À e_*? correspond le domaine : - ICR (t)<Z+ 2. 
3 Va 
À Le: 
Enfin la Hi ee ne possède de fonction caractéristique que sur 
X X 


l'axe imaginaire. 


IV - LA FONCTION SPÉCIFIQUE CARACTERISE LA DISTRIBUTION 
INTRINSÈQUE 


L'étude entre autres du domaine d'holomorphie de ® (t) montre que 
cette dernière fonction ne peut être choisie arbitrairement. Cependant, 
comme la fonction caractéristique classique, elle n'est astreinte qu'à des 
conditions assez peu restrictives, et le problème qui se pose maintenant 
est celui-ci : 


Sachant que d (t) est une fonction caractéristique intrinsèque (réduite) 
détermine-t-elle la loi de distribution ? 


Il va de soi que la question ne se pose que du point de vue intrinsèque, 
c'est-à-dire que la loi ne peut être déterminée qu'à une ''permutation!'' près 
sur les abscisses : seule l' ''image monotone!" pourra être unique. 


Nous allons établir qu'effectivement la fonction non croissante f(x) 


+00 
Att 
(x > 0) telle que TA f(x)" dx prenne des valeurs connues sur l'axe 


imaginaire est unique. 


© 
On peut écrire : © (t) = Fa elr*tLf(x dx, ce qui suggère de poser : 
[0] 


L f (x) = - u. En convenant de donner à u, aux points de discontinuité, les 
valeurs comprises dans l'intervalle d'indétermination, on peut en tirer : 
x = g(u) , u prenant toutes les valeurs de l'intervalle : 

< ES CPOTE ERA 


en appelant a la valeur, en général infinie, à partir de laquelle f (x) 
s'annule, En posant g (u) = c* en dehors de l'intervalle précédent, on peut 
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toujours admettre que u prend toutes les valeurs de - o à + . Sig(u) 
fonction non croissante, admet une discontinuité de première espèce, on 
conviendra de donner à x toutes les valeurs de l'intervalle d'indétermi- 
nation. 


Finalement @ (t) s'écrit sous la forme d'une intégrale de LEBESGUE 


SIP ITJES 
+0 
G(t) - 7 gear que) 
00 


s 


et le problème qui se pose consiste à tirer g (u) de cette équation intégrale, 
sachant que g_ (u) existe, est croissante et s'annule pour u = - © 


La dernière condition s'applique au cas où f(+o ) =+@ ; mais si 
f( +0 ) est bornée, elle se réduit à g [- Lf(+0o) ] = 0 
Quant au domaine dans lequel %(t) est supposée connue, nous le 
réduirons au minimum, c'est-à-dire à l'axe imaginaire t =is sur lequel 
nous savons que do est toujours définie. 
La marche suivie sera la suivante : 
1°/ nous résoudrons le problème formellement, en supposant remplies 
toutes les conditions dont nous aurons besoin. 
2°/ nous examinerons les conditions de validité de la solution ainsi 
obtenue, en distinguant les circonstances possibles par ordre de 
complexité croissante ; 
3°/ nous dégagerons les conclusions de cette étude, 


1° - SOLUTION FORMELLE. 


Posant, sur l'axe imaginaire, t = is et sous des conditions (A) que 
nous étudierons plus loin : 


Ps) = L e (#9) gt (u) du 


+ , 
TE -isu -u 
ou > Dis = Fe ee g' (u). du (2) 


D'où, sous certaines conditions (B), par la formule de réciprocité 
de FOURIER : 


e-" gt (u) = — sf et p'(is)" de (3) 


“à DE TOMATE 6° 


En admettant qu'il soit légitime d'intégrer sous le signe / et se 
rappelant que g (-w) = o : 
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1+is 


tu) 1 “- elttis)u _® Gis) 4 (7) 


2° - VALIDITÉ DES FORMULES PRÉCEDENTES. 


La condition (A) sous laquelle on peut remplacer l'intégrale de 
STIELJES (1) par l'intégrale ordinaire (2) est que g (u) soit absolument 
continue ; ce sera par exemple le cas si f(x) satisfait à une "anti-condition'! 
de LIPSCHITZ : dans tout intervalle fini, il existe un nombre positif K tel 
f(x2) - f(x) = po 

X9 - X: 


que : 


Pour que e “g' (u) soit alors représentable par son intégrale de 
FOURIER (3), elle doit remplir des conditions beaucoup trop restrictives 
pour notre sujet. Mais nous établirons directement (4) en nous inspirant 
d'un raisonnement de M. LEBESGUE sur l'intégration de la série de 
FOURIER : 


La fonction e-“g (u) est à variation bornée dans tout intervalle borné. 
Montrons qu'elle est absolument sommable de -œ© + , En effet : 


ê g(@) 
1 - | e* g (u) du = : e"® g[u G)] à (u (x) 
F 9 


@) 


g(8) 
1e W e. CS [u (x) ] Dons, a EE 
g( 


(02) 


puisque u (x ) est non décroissante : 


En intégrant par parties : 


» 


b 
NES). ï. f(x) dx 


Lorsque à et f tendent respectivement vers -@ et +®@ , a tend 
vers Oo, b vers +æ@ et le second membre tend vers + l. e" g (u) est 
donc sommable, et, comme elle est positive, elle l'est absolument. 


On sait que dans ces conditions e* g (u) est représentable par son 
intégrale de FOURIER : 


-u 1 : 
eg (u) rs 1 e°" lis) ds 
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où l'on a posé : Fo 
(is) -J ee“ g (u) du 


En intégrant par parties : 


+ © 
—(1+is) u Le É 
£ = e e”litis)u 
REA rs (u) | + [ iobehial 3008 VU 
— © 00 
Donc (is) Usher eg (u) = x f (x)}—-0 lorsque |u|—æ 


Ce qui établit sans aucune restriction la formule (4) 


g (u) + | strip g6sl ds (4) 


0) 


Au contraire de la formule (3'), cette dernière ne suppose plus rien 
sur la continuité de g (u). Aux points de discontinuité, elle donne à g (u) la 


1 
valeur + [se (u +o) +g (u -o)|: mais nous conviendrons d'y adjoindre toutes 


les valeurs comprises entre g (u-0) et g (uto) ; il est alors possible de 
tirer u en fonction de g (u) = x. D'où l'on conclut finalement 


Et 
x variant de o à +®. 


On n'oubliera pas que ce résultat n'a été obtenu qu'en postulant l'exis- 
tence de la fonction non croissante f(x) 


3° - CONCLUSIONS, 


Nous venons d'établir que la connaissance de Ÿ (is) pour toutes les 
valeurs réelles de s détermine complètement l'image monotone d'une iloi 
de probabilité, autrement dit détermine intrinsèquement cette loi. Comme 
pour la fonction caractéristique classique, Ÿ (is) ne peut être choisie 
quelconque : elle doit vérifier les conditions © (o)=1,| D] (is) 1. 
Enfin, elle doit être telle que g (u) soit non décroissante, Mais à cela près, 
elle est arbitraire. Dans l'avenir, sauf spécification contraire, nous dési- 
gnerons par d une fonction connue pour être une fonction caractéristique. 


Le cas échéant, nous affecterons des mêmes indices les fonctions 
dit) , g (u), f (x) correspondantes. Enfin, les fonctions g (u) et f(x) 
seront en général supposées complétées aux points de discontinuité de 
manière à donner une courbe continue C. 
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Notons maintenant que, contrairement à ce qui se passe dans l'étude 
classique, V() n'est guère intéressante que pour Îles valeurs réelles de t 


cela pour les raisons suivantes : 


La fonction caractéristique classique est un instrument de raisonne- 
ment surtout, tandis que la fonction intrinsèque est un instrument de 
travail ,le seul instrument de travail expérimental, 


La fonction classique est réelle sur l'axe imaginaire pour les lois 
symétriques, et de toute manière ses parties réelle et imaginaire se 
séparent aisément ; rien de tel ne se produit ici. 


Enfin, la fonction classique peut n'être pas définie sur l'axe réel ; 
cette circonstance, nous l'avons remarqué, ne se présentera pratiquement 
jamais pour la fonction intrinsèque. 


Pour ces raisons, nous ne regarderons désormais l'étude de (is) 
que comme une préparation à l'étude sur l'axe réel, et dans la suite nous 
supposerons ®(t) définie sur un segment fini de cet axe comprenant 
l'origine : æœ , f . Plus précisément, nous admettrons que 4 (t) 
soit holomorphe dans tout le domaine :aR (t)<f 


Pour déterminer intrinsèquement une loi, il nous suffira de posséder 
des informations équivalant à la connaissance de dd sur l'axe imaginaire. 
On en conclut que : 


La connaissance de ® (t) sur le segment &, fi de l'axe réel détermine 
intrinsèquement la densité de probabilité. 


La connaissance des moments logarithmiques réduits : Y, , y, ... 
détermine intrinsèquement la densité de probabilité. (Puisque La 
sont les dérivées à l'origine de la fonction holomorphe « (t) ). 

Il en est de même pour les moments spécifiques réduits : 
ee Yi, etc... qui sont les dérivées Fo) 270). de 
fonction - L® (t) holomorphe à l'origine. 


Examinons maintenant le rôle du seuil de repérage. 


]l — 
Onsas D(t) oo ® (t) 
d et Ÿ coincident donc si p=1. Sip n'est pas égal à l,faisons un chan- 
£ 1 
gement de variable en prenant > pour unité : px = x', dx' = pdx, et la loi 
1 


! 
de x! s'écrit : f(x) dx ed x) dx'. On en conclut que ({t) est la fonction 
caractéristique réduite pour la variable x! : À la donnée de ®(t) il est 
inutile d'ajouter celle du seuil de repérage, une modification du seuil se 
réduisant à un changement d'unité. Autrement dit : tandis que Dit) 
détermine intrinsèquement la loi et l'échelle, ® (t) détermine la loi et le 


seuil, Dans la suite, à moins d'indication contraire, le seuil de repérage 
sera pris pour unité, 


Si l'on veut, maintenant, déterminer la loi sans préciser ni l'échelle, 
ni le seuil, il suffit de se donner : 
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LA d? . d 
œ'(t) = STE LOf(t). Connaissant æ",œp est déterminée à une fonction 
linéaire près : @(t) = At + B + , (t). 


On détermine B par la condition : P(o= 9 + Et À caractérise le seuil, 
Il revient au même de se donner les moments spécifiques à partir du 


ee 2 
second : = = Y -Y: De 
Terminons par une remarque sur la théorie des fonctions : 


Pour calculer D (t), il n'est pas nécessaire de remplacer la loi de 
probabilité par son image monotone, mais celle-ci est alors déterminée 
par la formule ( ). D'après la définition de l'image monotone, on 
obtient le résultat suivant : 


Si f(x) est une fonction non négative sommable sur un ensemble e, 
la mesure de l'ensemble sur lequel f(x)> a est égale à ® (a-o) où (a) 
est la fonction : 


g(a) 5 re 2 [ [ro] 1+is +. 
00 l+is (e) a 


Ce résultat s'étend à une fonction f(x) bornée inférieurement par un 
nombre -À , en remplaçant, dans (a), f(x) et a par f(x) +À eta +. 
Il n'est pas évident qu'il s'étende à toute fonction absolument sommable 
dans (e). 


V - SUITE DE DISTRIBUTION 


Nous avons vu qu'entre les lois intrinsèques et les fonctions spécifi- 
ques, il existe une correspondance biunivoque. Nous allons examiner 
maintenant si cette correspondance est bicontinue du moins pour certaines 
définitions de la continuité fonctionnelle. 


Pour des raisons exposées précédemment, nous nous contenterons 
d'étudier des fonctions caractéristiques toutes définies sur un segment af 
de l'axe réel comprenant l'origine. 


1°/ Limite intrinsèque d'une suite de distributions. 


Nous dirons qu'une distribution 4, converge intrinsèquement vers 
Æ, lorsque l'image monotone de J, converge vers celle de, ; c'est- 


à-dire lorsque : 
x x 
2 (Pr) dre f(x) dx 
Lo] © 


f(x) étant la densité de probabilité de l'image monotone. 


On sait que la convergence des intégrales indéfinies précédentes est 
nécessairement uniforme, 


Il y a plus : comme nous n'étudions que des fonctions f,(x) mono- 


tones, la convergence des intégrales entraîne la convergence des 
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fonctions elles-mêmes (du moins moyennant nos conventions sur les points 
de discontinuité). 


Ce résultat sera surtout utile pour les fonctions g (u) : 


En posant : GA(u) = Î gn (u) du 


la convergence de Gn vers Go entraine celle de g, vers g, ,et par suite 
celle de la courbe C\ vers CQ , donc la convergence intrinsèque de {, vers 
Lo. Toutefois, l'uniforme convergence de Gr n'entraine celle de g, que si 
go est continue. 


2°/ O(t) fonctionnelle continue de la distribution intrinsèque. 


Nous nous assurerons que (),(t) tend vers (),(t) en exprimant que 


Arme 


n 


f 


(x) forme une suite intégrable. 
Le critère de M. LEBESGUE sera souvent utilisable : 


Si f, (x) reste inférieure à une fonction F (x) telle que : 


/# “tx ait un sens, la convergence de f, vers f, entraîne celle de d, (t) 
o 

vers bd (t) ; la convergence est uniforme dans tout intervalle fermé de t, 
satisfaisant à la condition précédente. 


Un cas particulier important est le suivant : 


Supposons que f, (to) reste inférieur à un même nombre fixe M.- 
1+t, SL . 
Comme f(+1)< 1, f, (x) forme une suite intégrable dans l'inter - 
: ha 

valle (0,1). Mais dans l'intervalle (1, +æ ) f, (x) reste inférieure à f, (x). 
Comme f,(x) forme une suite intégrable, il résulte alors d'une généralisa- 
tion due à YOUNG du critère de M. LEBESGUE qu'il en est de même de 
1+t4 
n 


(x). Donc : 


Si les f,(+0) sont bornés individuellement et dans leur ensemble, la 


convergence intrinsèque des distributions suffit à assurer la convergence 
uniforme des U,(t) sur le demi-axe positif (0 , + o ). 


Si de plus fn(x) s'annule pour une valeur de x indépendante de n, la 
convergence aura lieu sur tout l'axe réel, uniformément surtoutintervalle. 


3°/ La distribution intrinsèque, fonctionnelle continue de 4 (t) 


Nous ferons d'abord la démonstration sur l'axe imaginaire, de manière 
à pouvoir utiliser la formule. 


Comme celle-ci contient une intégrale non absolument convergente, 
nous tournerons la difficulté en intégrant formellement : 
++ 00 $ 


Cu) site, QDdis 
(1+is) 


ds 


— 00 
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puis nous légitimerons cette formule par la méthode déjà employée : 


On voit aisément que, pourvu que ll, existe, e” Gn(u) est absolument 
sommable, et par suite représentable par son intégrale de FOURIER ; et 
cette dernière, par intégration par parties, donne la formule. 


Dans celle-ci, la quantité qui figure sous le signe / est inférieure en 
u 


e 
module à ou forme donc, lorsque n varie, une suite intégrable. La 


convergence de G entraîne celle de g, , et comme la limite d'une fonction 
non décroissante est elle-même non décroissante, il n'est pas nécessaire 
de savoir que , est une fonction caractéristique pour affirmer que : 


5i d,(t) holomorphe à l'origine, converge sur l'axe imaginaire vers 
d.(t), L h converge intrinsèquement vers L,. 

Pour obtenir un résultat correspondant sur l'axe réel,il suffira d'in- 
troduire une condition de normalité. En partageant dt) en deux parties 
l'une croissante, l'autre décroissante comme nous l'avons fait dans l'étude 
du domaine d'holomorphie, on voit immédiatement que : 


Si les fonctions «,.(t) sont définies et bornées dans leur ensemble pour 
æ<o et pour Bo , elles forment une famille normale dans le domaine 
a<R (t)<f . La convergence de (),(t) est alors assurée en tout point de 
l'axe imaginaire : 


Par la convergence de  4,,(t) sur le segment af. 


Ou par la convergence terme à terme de la suite des moments loga- 
rithmiques ou des moments spécifiques. 


Dans les mêmes conditions, d'après ce qui précède, la convergence 
intrinsèque des lois est aussi réalisée. 


En particulier : 


Si d,.(t) est définie sur &« f , la convergence uniforme de d,vers d, 
sur œ Bentraîne la convergence intrinsèque des lois. 


Remarquons que si ®, (t) est holomorphe à l'origine, sa série de 
TAYLOR y possède un rayon de convergence positif r.Désignons alors par 
æet B deux nombres l'un négatif, l'autre positif, inférieurs en valeur ab- 


m : 5 (ki 
solue à r et à 1. Soient pi le K°”* moment logarithmique 4; (0) et suppo- 
sons que TL tende vers FX de façon que LE - PFKA<KIe pour un n supé- 


rieur à un nombre convenable N (£e). Cela suffit pour que les coefficients de 
TAYLOR de «4, tendent uniformément vers ceux de 4, et que y (æ)par 
exemple diffère de moins de de la somme des valeurs absolues des 


€ 
loc 
termes de la série d,(x),donc soit bornée à partir d'uncertain rang. Ainsi: 

si2K tend vers LE uniformément par rapport à K et si les TK sont 


les moments logarithmiques correspondant à une fonction caractéristique 
holomorphe à l'origine, la distribution Æ , converge intrinsèquement 


vers L,. 


- . 
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CHAPITRE ll 


APPLICATIONS 


LES DEUX POINTS DE VUE 


La notion de ‘loi intrinsèque!'' conduit, comme toute abstraction, à 
deux manières complémentaires d'envisager la même question : 


1°/ Etant données plusieurs lois isomorphes L;,, L2: , etc... chercher 
leurs propriétés communes, en s'efforçant de réduire l'expression de 
ces propriétés à des formes invariantes par rapport à l'isomorphie : 
c'est le point de vue comparatif. 


2°/ Etant donnée une loi L ,chercher, sans la comparer à d'autres lois, 
celles de ses propriétés que l'on peut définir sans spécifier l'ordre 
des événements, c'est le point de vue direct, 


Le second point de vue est naturellement plus séduisant que le 
premier. Mais il est en général moins fructueux comme on le sait par 
exemple en comparant le calcul vectoriel (direct) ou calcul tensoriel 
(comparatif). 


Un autre motif donne une importance spéciale au point de vue 
comparatif : même lorsque nous étudions des événements non ordonnés, 
nous avons souvent la conviction qu'il doit exister une manière de les 
ordonner qui est''la bonne!!', qui correspond à l'la nature des choses!! : 
cet ‘'ordre naturel'', nous espérons que la statistique pourra nous le 
suggérer parfois. Cependant, il ne faut pas oublier que dans certaines 
questions de physique (statistiques de BOSE-EINSTEIN, de FERMI- 
DIRAC) ce problème d'ordonner les événements peut être en contra- 
diction étrange avec l'intuition : mais précisément les physiciens ont 
actuellement tendance, en pareils cas, à donner le pas à la statistique 
sur l'intuition, et à réviser, si nécessaire, l'image fournie par cette 
dernière. 


Nous commencerons par une étude sommaire des résultats qui 


fournit le point de vue direct. Puis nous passerons à la méthode 


comparative. 
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INÉGALITÉS INTRINSÈQUES 


En statistique classique, la connaissance des deux premiers moments 
permet, par l'inégalité de TCHEBITCHEFF, de limiter l'intervalle qui 
renferme une probabilité totale donnée. En statistique intrinsèque, nous 
obtiendrons des résultats analogues par la connaissance du premier 
moment spécifique : 


SD piece 


Etablissons d'abord un résultat très simple. 


Si K nombres positifs p,, P: ... pk, Ont une somme données P, 
P 


l'expression HV 2 p; L p, est maximum lorsque les p; sont égaux à K° 


et minimum lorsque l'un des p; est égal à P, les autres étant nuls. 


2, en considérant la courbe : 


Le résultat est immédiat pour K = 
y=xlLx+(P - x)L (P - x). Pour K>2, on remarque que si deux des p 
sont inégaux, on majore H,4 en les remplaçant tous deux par leur moyenne. 
Comme d'autre part Hk est bornée et continue, elle atteint sa borne supé- 
rieure, et cela n'est possible que lorsque tous les p; sont égaux. 

Au contraire; on minore H en remplaçant un p; par zéro et en augmen- 
tant d'autant un autre p. Comme HK4 est borné inférieurement, l'énoncé est 
démontré. 

Cela posé, rangeons les n événements d'une distribution finie par 
probabilités décroissantes, et considérons les K premiers événements. 
Nous allons chercher comment la connaissance de H permet de relier K et 
la probabilité totale P de ces événements. 


k P : I-P 
Ona:-Zplp<-PLl-=. -apLp<-{({-P}l = 
K n-K 
D'où : = = Des 
où PL 5 ! (i-P)L 1-P = 


Cette formule ne parait intéressante que pour P 25 


Elle s'écrit, en posant alors K = K' 
LL 2R! senlssdein ui) > 2H 


Nous poserons souvent : H = - L &. Alors : 
K' (n-K)> —— 
4 © 
(RICE GK" (Dn-Kk)>— 
D'où l'on déduit : K'=2 + Li n? es CO 0 SE) 
2% 22 T2 Ni, 
n 


_— 1 
Pour © = 7 K' = 3 » Ce qui était évident a priori, car ce cas cor- 


respond à des p; tous égaux entre eux. 
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On remarquera que LS =2 pl p définit & comme une ‘proba- 
bilité moyenne logarithmique!' c'est la l'moyenne!' la plus intéressante dans 
les applications. Nous l'appellerons : ‘'probabilité efficace'', Elle est 


: 1 
comprise entre — etais 


On remarquera par exemple qu'en remplaçant n et K' par nw et 


K'O , nous avons obtenu une inégalité de type ''réduit"! : K' (n - K')> + 
= ñ 6 
OÙ: Cr bn ESP 
u K > + 2 ñn 1 


Nous obtiendrons un résultat plus important en reliant P non plus 
s . ss à “ 1 
à K , mais à p, que nous poserons égal à : 


Le plus grand des p; est ici p,, mais pour utiliser une notation ne 
préjugeant pas de l'ordre des p; , nous le désignerons dans l'avenir 
CES 

n n 
On a : ZplÀ p=2Zplp+tLA =LAo 


k n 
Où =: 2 p;l À p, +2 D'LA p;, = LAS 


Par définition de À etdeK, LX\p;est négatif pour i> K. 


On en conclut : K 
Z p; L'Ap;>LAS 


Et comme P;, < P, PL Ap,>LAS 
Pourvu ators que LV RS 
era 
1e LÀ D. 


Telle est l'inégalité fondamentale que nous avions en vue. On 
remarquera que, pour Àrv œ,P tend vers l'unité. L'inégalité précé- 
dente jouera, en statistique intrinsèque, le rôle de l'inégalité de 
TCHEPBITCHERF. Ecriten: 

LA-H 
== ———— 
RU. AL D, 


elle justifie le nom d'incertitude donnée à H , en montrant que plus H est 
grand plus il faut aller loin vers les petites probabilités pour réunir une 
probabilité totale P suffisamment voisine de l'unité, donc pour ''prévoir!! 
les événements ayant des chances de se produire. Si l'on veutencore, 
H mesure l' ''émiettement'' des probabilités en un grand nombre de petites 
valeurs H = L n , valeur maximum possible avec n événements, tous les 
événements sont également probables, l'incertitude est d'autant plus 
considérable que n est plus élevé. 


Pour H=0, un seul événement est possible : on peut prévoir à coup 
sûr. Nous verrons que cette interprétation de H comme mesure de la 
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notion intuitive d'incertitude donne lieu à des énoncés remarquables, 
concernant la loi de GAUSS d'une part, et la théorie de la dépendance 
stochastique de l'autre. 


Bien que ce ne soit pas le lieu de philosopher, on peut se demander 
s'il ne serait pas possible, par ce moyen, d'arriver à fonder sur des 
bases précises la théorie de l'induction. On sait que la notion de proba- 
bilité est là, défaillante : un nombre fini d'expériences donne toujours une 
probabilité nulle à une composition donnée d'une urne infinie. Il est donc 
nécessaire de substituer un autre concept à celui de probabilité : peut 
être. convenablement utilisé, celui d'incertitude ? 


ep L& 
Venons à la formule = à 


CHENE PAT 


On peut l'écrire encore : Lo 


Po 
1 : 1 : 
_ —————— QO _ 
1. sa UX 
Po 
en posant : asile) Ts 70: 


Pour la loi de GAUSS, on voit que la limite obtenue pour 1-P est du 
même ordre 5) que dans l'inégalité de TCHEBITCHEFF. Pour la loi de 
LAPLACE elle sera moins bonne. Pour la loi de CAUCHY elle sera de 
l'ordre de = ce qui est médiocre, mais l'inégalité de TCHEBITCHEFF 
ne s'applique plus du tout, 


Nous allons obtenir maintenant une limite meilleure en considérant 
le second moment spécifique : 


Pre op L "ER APTE G VE er ed dc x 
(A) 


po 
Remplaçons dans cette formule À par LE. Le second membre 
: 1 
s'accroit de ÉRMORe , c'est-à-dire de 2HLyu. En désignant 
alors par K le rang du dernier événement pour lequel Best supérieur 
ae 


à l'unité (p>—— 
| 


on peut écrire : 


) 
K n 

l FODE v 
2+ loc Les lass 


p © 


n 
Dans 2 tous les termes sont négatifs. En les supprimant, il vient 


K 
DR PT Ju. n. 
rP _. 5 >2HLu-- 
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PT à eo en 


Ou en décomposant : L P 


He 1, mp v 
À EAP EL LES 2 Hi pie 


En majorant p par p, 
H Po HPo K 


Hs JL v 
HP NE LpL->2HLH = 


< 1 
Or 2 p LAS est inférieur à P LH- Lu (On le voit aisément par un 
calcul analogue à celui qui nous avait donné l'inégalité précédente). On en 
Pos 
Die. 
(Lyta) GHP+P'Ly,s bu) 248 Lu: 


conclut, en posant toujours L 


L'u + (2H +a) Lu #4 


L'u+(2H+a)Lu +2 Ha 


Ou enfin : 128 


wl< 


Mes AL ITR ee 
Lu + (2 H+a) Lu 


Fe 2 Ha 
L'u+ (2 H+a)Lu 


Sous la forme : P2 
1 


On en conclut, 2 Ha étant positif : 
y 
REA 7 
PE: = 


L°u + (2 Hta) Lu 


Cette formule donne pour 1-P une limite plus rapidement convergente 
que la précédente : son grand intérêt vient de ce que, pratiquement, elle 
n'exige pas plus d'information, le terme + étant en général petit par 
rapport à 2 Ha. 


On pourra donc admettre sans grande erreur 


2 
IR) EH 
En 
Pour la loi de GAUSS, v est effectivement égal à 1, et l'on obtient une 


# . 1 
évaluation de l'ordre de SP donc nettement meilleure que par la formulede 


a] 1 
TCHEBITCHEFF. En posant Pk À LOST ES comme précédemment, on obtient: 
2 Ha ee 
P So 


TAROT HA PS 


114 ÉTIENNE HALPHEN 


En résumé, nous avons obtenu trois inégalités permettant, par la 
connaissance de H, de limiter la probabilité totale des "petits événe- 
ments'', de même que l'écart-type permettait, en statistique classique, 
de limiter la probabilité totale des événements éloignés de la moyenne. 


LA LOI DE GAUSS 


Une question se pose alors naturellement : existe-t-il une relation 
entre ces deux évaluations de la ‘'dispersion'' que sont respectivement 
l'écart type et l'incertitude ? 


Cette question, bien entendu, n'appartient plus à la théorie intrin- 
sèque : elle forme pont, en quelque sorte, entre celle-ci et la théorie 
classique. La réponse est la suivante : 


Si l'on connait, l'une des deux grandeurs © et H, l'autre possède une 


borne supérieure ou inférieure, et celle-ci est atteinte pour la loi de 
GAUSS. 


Pour nous rendre compte du résultat, nous utiliserons d'abord le 
calcul des variations : nous ferons la démonstration rigoureuse et directe 
ensuite. 


On peut toujours prendre comme origine la moyenne. Alors : 


+0 
Î HR) de ul fixer = fis.aæ-e fatax--n 
— 00 


(L'unité de longueur étant le seuil de repérage). 
L'extremum lié de H s'obtient en annulant la variation première de : 


Jax+bxse- 1 rx 


Ce qui donne : 2 Xe Dr IC LS LE 
Lf devant être un trinôme du second degré en x , on obtient une loi de 
GAUSS. sax? 
D'ailleurs, celle-ci ne peut être que: f (x) pee Lu 
oV2xr 


Calculons H : 


2 
13 PS fartrevz ) £ (x) dx = 7 + Lo V 27 


que l'on peut écrire : H=Lo ares 
Ontenatiren CONS l 
ZATILE 


Nous devons donc nous attendre à ce que, pour une loi non Gaussienne, 
l'égalité précédente devienne une inégalité, c'est-à-dire : 


H=L o«V2ne, Où: D > — (1) 
re 
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Pour le vérifier, rappelons que, si f (x) et g (x) sont deux lois de 


probabilités, on a : 
PARTS ÉRTTE 


l'égalité n'ayant lieu que si les deux lois coïncident presque partout. 
Prenons alors : 


1 r 
8% | evV2èn EN 


Nous obtenons : 


2 
Jeiromiwes < fivtes 


c'est-à-dire précisément la formule (1). 


Ainsi la connaissance de © borne supérieurement H; la connaissance 
de H borne inférieurement ©. 


REMARQUE 1. Je L f dx n'est égal à H, telle que nous l'avons définie, 
que si le seuil de repérage est pris pour unité, et s'il est petit par rapport 
à o . S'il n'en est pas ainsi, on ne voit plus très bien le sens définitif de 
l'intégrale précédente, mais bien entendu ses principales propriétés 


subsistent. 


REMARQUE 2. n'est pas la seule grandeur bornée inférieurement 
lorsqu'on connaît H. Il en est de même par exemple de l'écart moyen, 
et celui-ci atteint sa borne pour la loi de LAPLACE,. 


Le résultat précédent permet une interprétation curieuse de la loi des 


erreurs : 


Admettons que la précision des instruments de mesure employés dans 
une série d'expérience soit liée à l'écart type des résultats. Si nous 
opérons toujours avec les mêmes instruments, l'écart type à priori reste 
constant. Dire alors que les erreurs, qui ont un écart type donné, suivent 
la loi de GAUSS, c'est prendre la loi qui a la plus forte l'incertitude!!: 


cette loi ne doit pas être regardée alors comme une loi réelle, mais 


comme une loi de sécurité ; elle représente les pires circonstances que 


nous risquions de rencontrer, celles où nous serons le moins bien ren- 
seignés,. 

On notera à ce propos que si l'on mesure la précision par unautre 
écart que l'écart type, par exemple l'écart moyen, on obtient des lois 


(LAPLACIENNE ou autres) qui, intrinsèquement, s'éloignent peu de la loi 
de GAUSS. (Par exemple la fonction spécifique est At +ÈL (1 +t) dans un 
cas, At + L(l1+t) dans l'autre). En sorte que, pour les problèmes d'es- 
timation, il n'importe pas beaucoup d'avoir affaire à l'une ou l'autre 


d'entre elles. 
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Pour terminer, rappelons que la loi de GAUSS d'écart type © (le 
seuil de repérage, petit devant © , étant toujours pris pour unité) a pour 
fonction spécifique : 1 
æ(t) = At += L (1+t) 


comme nous l'avons vu au chapitre Il. L'incertitude est : 
1 
H = æ"(0) LUE Re Lo 2re 
ce qui détermine A : 


= TEE A D 
A=Lo V 2x . D'ailleurs & = Po oVin 


LT He 
donc a = LA-= -. Enfin: v = 1. 


L'AJUSTEMENT INTRINSÈQUE PAR LA LOI DE GAUSS 


Nous avons indiqué au chapitre 1 la méthode générale d'ajustement 
intrinsèque par les moments spécifiques, Nous allons revenir sur ce 
problème en nous attachant surtout au cas où la loi est présumée 
gaussienne. 


Nous supposons que N épreuves indépendantes portant sur n événe- 


ments ej ont donné des fréquences relatives p! a Nous avons d'autre 
part des raisons de croire que la loi de probabilité de ces n événements a 
peut-être une certaine forme : | pj ; mais nous ignorons comment se 
correspondent les indices i et j, et même s'il est raisonnable de regarder 
les e comme suivant la loi {p;) . Nous traiterons d'abord avec cette 
dernière question dans le cas où (P;) est la oi de GAUSS : 

A ii 


2 2ITE 
Pis Te. $ 
l'indice j variant de 0 à n - 1 eto étant grand devantle seuil de repérage 
pris pour unité ; en outre, nous supposerons n assez grand pour être 
remplacé par l'œ© dans les sommations. La fonction spécifique des {mi} 
est sensiblement : 1 
œ(t)=tLo 27 + L (1 +t) 


Les p! nous permettent de calculer une fonction caractéristique 


expérimentale : 
P œi ,1tt 


VE Ce 


et une fonction spécifique expérimentale : ® (t) = - L Y (t). 


On pourra tracer les courbes représentatives de @(t) et {y et les 
comparer. Elles passent toutes deux par l'origine, et sont en ce point 
sensiblement linéaires. Nous commencerons par comparer leurs tan- 
gentes, dont les pentes sont les incertitudes ‘l'a priori'' : H, et l'expéri - 
mentale'' ou ‘''présumée'' : H', Nous choisirons o de manière que H = H' 
c'est-à-dire : 
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Les dérivées suivantes sont pour la loi de GAUSS : 


1 
Vie Ya ol NAS ES) oo 


Nous déterminerons les moments spécifiques expérimentaux 


12 ! ' ai œi 1 Xi C2 
2m _ = — rm = —— ete 
Ye ] a -avec:, Li ROLE," ZX L N ; 


et nous comparerons ces valeurs aux précédentes : les écarts ne devront 
pas dépasser trop les écarts quadratiques probables, 


Calculons ces derniers. 


Nous avons déjà calculé l'écart type de Y, = -[; = H: 
2 
Fiat pelouse Lil'age set ( 
2 N ET 
Pour Y, = je r le nous avons: AY, =22 D A1, AM 


c'est-à-dire : 


A'yser2d ae st Flip} Lips 2: (Zap Rd ph A, 
Où : -A%y, = EÎL'p+2(1+H)Lp+2H]A pb 


On sait qu'alors, en se bornant à la partie principale : 
NA? Yo 2 p 0 D pl] 
On trouve ainsi : 7 3/2 
A°Y2= EE ÿ 
Un calcul analogue donne, pour ‘; ! 


A2 SAISON 
à A N 
Il est assez remarquable que les résultats précédents ne dépendent 
pas de H. Le calcul précédent a été fait en partant de l'identité : 
= =  P' Pe 
qui, par dérivations successives, donne pour : 
PO Tes y, bee lu ya te Pa 2 PA F2 Ÿa VS 
[MnemrestemMplus qu'a remplacer Y,,,Y . .. par -7...pour 


obtenir de proche en proche E (Lp) , E (L°?p)... Mais on peut simplifier 
les calculs si l'on sait que H doit finalement s'éliminer : on le remplace 
par 0 partout. Voici la justification de cette méthode : 


La probabilité que des événements de probabilités p,... p, se 
produisent avec des fréquences f1... fn au cours de N épreuves a pour 
logarithme, lorsque N est grand (CF chapitre 1) : 


LP ON des 
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Si f (x) et p (x) sont des fonctions continues interpolant f et p le seuil de 
us [se L£ à 
repérage étant p : LOTS 2 N f £60 DT à = - N (x) Es 


Ainsi : La probabilité d'obtenir la courbe f (x) pour des événements 
de densité de probabilité p(x) ne dépend pas du seuil de repérage - 
pourvu que N soit suffisamment grand (revoir le calcul du chapitre 12 


Or, au lieu de prendre p = 1 et de faire varier H avec la courbe p({x), 
on peut fixer la courbe p(x) et faire varier p . Bien que la courbe p (x) 
reste invariable, naturellement la loi dénombrable pi varie avec ÿ 
ainsi que H : on peut caractériser la variation de la loi pi en disant qu'elle 
reste semblable à elle-même ; ce fait se traduit, comme nous le savons, 
par l'invariance de "(t). Si alors à chaque loi p (x) on fait correspondre 
les mêmes courbes de fréquence f(x), nous savons que ve dE patio 


dépendent que de f (x) et pas dep. Donc ZP(y', - y, }2 par exemple ne 
dépend pas de p puisque chaque terme en est indépendant (à condition de 
faire correspondre entre elles les lois semblables). Ainsi:les erreurs 


probables sur les grandeurs invariantes vis-à-vis de la similitude sont 
elles-memes indépendantes du seuil donc de H. 

Que conclure des calculs ci-dessus ? que les erreurs sur H' et sur 
v'=- 27%, sont petites. D'une façon précise,l'erreursurH=LoV2xre 
a même partie principale que celle qu'on obtiendrait en calculant les 
moments classiques. Pour l'ajustement d'une loi de GAUSS, l'usage de H' 


est aussi précis que celui de o' (1),du moins quant aux parties principales 


(on sait que la précision exacte est nécessairement moins bonne) (2). 


Quant à la précision relative sur v , elle est meilleure que sur La « 
D'autre part, le calcul de H et celui de l'y n'exigent que des additions 
lorsqu'on possède des tables numériques de x L x et x L?x (3) : leur 
emploi est donc avantageux même en statistique classique .Il ne peut rem- 
placer que l'emploi des moments d'ordre pair. Mais on simplifie nota- 
blement les calculs sans accroître les erreurs de façon appréciable en 
remplaçant la moyenne m; par la médiane. Quant au troisième moment 
H3 Servant à mesurer la dissymétrie, on peut lui substituer l'expression : 


FE-E np ( ) 


où les signes 2 et > désignent respectivement les sommations à droite 
et à gauche de la médiane. 


Ainsi H et V tiendront lieu avantageusement de hu, et ut, dans 
l'ajustement d'une loi de GAUSS et dans l'estimation de la correction de 
l'ajustement. L'usage de V fournit en particulier un procéder d'une bonne 
En pour distinguer une loi de GAUSS ( v = 1) d'une loi de LAPLACE 

v= 2). 


(1) Dans ces lignes et les suivantes, j'abandonne le point de vue intrinsèque, ou du 
moins je ne m'y restreins pas. 

(2) Voir : DUGUE, Jourral de l'Ecole Polytechnique, 

(3) On trouvera la première à la fin de cet ouvrage. 
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Quant à m,etu;,, on pourra les remplacer, pour simplifier les 
calculs ,par la médiane et l'expression. 


On notera encore que le calcul de ©& , à l'aide de H , ne nécessite plus 
le calcul antérieur de m,. 


Dans les dernières lignes, nous avons supposé les événements 
ordonnés nous plaçant sur le terrain de la statistique classique. Revenons 
à présent au point de vue intrinsèque. 


Nos p; expérimentaux nous ont donné une fonction spécifique expéri- 
mentale ft) ne s'écartant pas trop de la fonction œ(t) = At+}(1tt), 
ce que nous avons reconnu soit graphiquement, soit en comparant les 
moments spécifiques. 


(a -n 1-0 2 
| v-vl = 0 VE 
Eseea pr er 


en désignant par 0 des nombres qui ne doivent pas dépasser par exemple 
Fou A2; 
Le problème qu'il faudra maintenant résoudre est le suivant : 
Peut-on faire correspondre les indices i et j de manière que l'événe- 
ment e; (qui s'est présenté avec la fréquence p') puisse raisonnablement 
avoir la probabilité p; ? 


Pour résoudre cette question, nous appliquerons la méthode du 
maximum de likelihood, en cherchant pour quel ordre des indices j 
1 
l'expression Zp! ke p;est maximum. Ou Dpil— minimum. 


1 J 
Nous poserons :L_ —= À; et nous cherchons le minimum de la forme 


J 
bilinéaire à termes positifs : Z À; p! 
Lorsque la forme n'a que deux termes, on voit immédiatement que 
ceux-ci doivent être rangés par ordres de grandeur inverses. Il est facile 
d'en conclure que le fait est général ; et, si les p; sont numérotés par 


1 
grandeur décroissante,nous rangerons les Àj , donc pe , par grandeur 


croissante, J 


Finalement : 
À défaut d'autres indications provenant de la nature du problème (1) 
nous rangerons les p et p' dans le même ordre. 


Nous retrouvons ainsi le procédé que l'intuition nous avait suggéré 
dans l'introduction. Mais je crois que, néanmoins, la notion de fonction 
caractéristique intrinsèque, en tant qu'instrument de calcul mathématique, 


garde tout son intérêt. 


(1) Cette restriction est essentielle : un statisticien ne doit jamais être absurde ,.. 
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Une question se poserait ici : L 


Les p ayant été rangés comme il vient d'être dit, on peut mesurer 
leur ajustement aux p'par la méthode du X?. Serait-il possible de calculer 
ce X? à l'aide des fonctions spécifiques pt) et ®(t) ? 


La question analogue n'a pas été résolue, à notre connaissance, en 
statistique classique. Ici, elle est encore bien plus difficile : théorique- 
ment, on sait la résoudre, puisqu'on sait calculer une loi de probabilité 
connaissant (t). En second lieu, la bicontinuité fonctionnelle de la 
correspondance entre œ(t) et la loi nous assure que X* tendvers 0 lorsque 
Ÿ tend vers @ (sous certaines réserves). Il serait souhaitable d'aller plus 
loin, mais il semble que, pratiquement, la petitesse des écarts : 
MATE ST eV vi Ys co Vaqit UT Test satisfaisant d'ajustementintrin- 
sèque. 


LES LOIS NORMALES 


L'importance, en statistique, de la notion de ‘fonction caractéris- 
tique'' ou ‘'fonction génératrice!'', vient de ce qu'elle rend compte d'une 
manière simple de certaines opérations, telles que l'addition ou la multi- 
plication des variables aléatoires. La fonction spécifique a été introduite, 
au début de cette étude, en relation avec le ‘''produit logique!'!' ou encore 
composition!" de deux ensembles d'événements indépendants, Cette 
composition sera l'objet d'une étude spéciale au chapitre IV, mais du 
point de vue intrinsèque pur nous en parlerons dès maintenant. 


Soit e; ete'i deux ensembles d'événements, et e"j l'événement ren- 
contre de ei et de e' . Nous ferons dans la suite usage de la notation 
suivante : 


Nous aurons rarement à désigner l'unique événement e; ; générale- 
ment l'indice i figurera sous un signe de sommation. Aussi nous 
abstiendrons-nous d'écrire l'accent dans e'j le seul fait d'appeler _j 
l'indice signifiera qu'il s'agit d'un événement e', 


De même au lieu de e'; nous écrirons simplement ei; .D'une manière 
analogue Hji désignera l'incertitude du premier ensemble d'événements : 


His) pi l_ p; ; tandis que Hj , l'indice étant muet, concernera e' et que 
Hij signifiera : - 225 Pi; LE Pi 


a è 
Quand nous aurons à désigner le 1®T, le K Te événement ei; , nous le 
noterons e(1) ;  e(k) ; Ou encore, en cas de confusion 1, » ©k suivant la 
notation classique. 


Si les événements ej ete; sont à probabilités indépendantes, on a : 
PiaPine;. -: 

Dans ce chapitre, nous considérons comme intrinsèquement équiva- 
lentes (isomorphes) deux distributions formées des mêmes probabilités 
quels que soient leurs ordres, Le symbole p;: doit donc être regardé 
comme à un seul indice : Pi = Pk, et le fait que deux événements eijj figu- 
rent sur une même ligne ou une même colonne sera ici négligé (ce sera 
l'objet du chapitre suivant). 
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| Si Pÿ = Pi - Pj: la fonction spécifique p;; (t) est la somme des fonc- 
tions spécifiques P;etp;. En particulier, si les e;j et les ej suivent une 
loi de GAUSS : 
— y? 
1 2ç1 1 Met 


= ———— € FRET PEN BE ENS 
CV ie) O2 V2n se 2 À y; 


eij suit une loi de GAUSS à deux variables : 


NRA En 

2o 7? 2o 7 

: 1 1 2 
Pi 2x MCTTE Ax;iAy; 


E À l pure 
n posant : x À y 5 p on pourra assimiler p;; à une loi continue, et 
faire les calculs correspondant par des intégrales doubles, Sans recourir 
à ce procédé, nous savons que si : 


gift) = At + CF (FE) p;(t) = Bt +7 L (1+t) 


alors : Plt) = Ct+lL (1+t) 


Si maintenant, laissant de côté le double indice, nous rangeons les Pi 
par grandeurs décroissantes, p, , nous pourrons représenter approxima- 
tivement p, par une courbe continue f (z) (o&z). On voit aisément qu'à 

pt) correspond la loi de LAPLACE, Ainsi : 


La loi de GAUSS à deux variables est isomorphe de la loi de 
LAPLACE à une variable. 


Si l'on regarde, avec la plupart des statisticiens, la loi de GAUSS 
comme la loi fondamentale (1), on voit que la loi de LAPLACE peut être 
obtenue en partant d'une loi de GAUSS plane, fendant le plan par deux demi- 
droites issues du centre, et repliant les deux demi-plans à la manière d'un 
éventail. En même temps, on remplace les distances au centre par leurs 
racines carrées, de manière à obtenir une variable propre. 


Dans cette double opération, l'origine est un point singulier, ce qui 
explique le point anguleux de la loi de LAPLACE, 


Plus généralement, une loi de GAUSS 
à n variables a pour fonction spécifique 


At + A L_ (1+t) 


Elle est isomorphe de la loi yo +6 


Le fait essentiel, c'est que n est 
caractérisé par le second moment spéci- 


RS 


C'est en vue de la formule précédente 
que nous avons appelé indice la quantité 
V=-27Y, =2(M -M°) 


(1) Sa stabilité vis-à-vis de l'addition lui donne une valeur privilégiée par rapport 
à la loi de LAPLACE. 
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La loi de GAUSS à plusieurs variables donne donc une importance 
k - 
particulière aux lois de la forme y,e *_, Nous les appellerons : ‘lois 
intrinsèques normales!' (2) 


Nous allons les étudier sommairement. 


Il n'est pas possible d'exprimer simplement y, en fonction de K; mais 


en supposant y, connu dans : si pe 
Xo 
VIRE Yo 
on obtient par intégration par parties : 
EX Il 
E SE 
++ k 
: 1 1 
On en tire : HIER RTS EU O7) 
k Yo 


La fonction spécifique s'obtient aisément : 


(t) = At +—L(+9 


Avec :H + ARR) Gus LA nr 


k Yo 
E ite : Yo = À D'ou: Vie _ 
nsuite : Yo = K- OÙE : Mimi 
L'erreur probable sur H est: A?H = — 


Quant à l'erreur sur v , un calcul analogue à celui indiqué pour la loi 
de GAUSS donne : 
Aio 322) 102 Fi) 
N 


On notera que l'erreur absolue sur l'indice croît avec celui-ci, à peu 
près proportionnellement., Ce fait est assez gênant, car nous verrons qu'il 
importe de savoir distinguer les valeurs de v voisines des divers entiers : 
c'est donc l'erreur absolue qui précisément nous intéresse. L'écart type 
tolérable sera au maximum de l'ordre de 1 , mais si possible de "Fe On 
voit ainsi que : 2 


pour V = 1 on devra prendre N © 25 et si possible © 100 
ii = 2 { 65 u 250 
A = 3 À 120 " 500 
= 4 L 200 Ut 800 
1 = 5 nt 280 L 1 100 


Pour v = 10, on trouve NT 1000 dans la première colonne : cela 
marque à peu près la limite pratique d'utilisation du procédé. 


(2) Ce nom me semble tout à fait indiqué ; je ne crois pas qu'il prête à confusion 
avec le terme de "loi normale" sous lequel on désigne la loi de GAUSS réduite. 
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Quant à Y, sa valeur est v pour une loi normale, Sa valeur expéri- 
mentale fournit un test d'exactitude pour le guotient X - = g . g mesure la 
"normalité" : il doit être voisin de l'unité. 


wy2 
L'erreur sur Y, est donnée par : A? = _3v(5+3v+ 4) 


N 
L'erreur sur g est ainsi en négligeant l'erreur sur y : 


y 5 
AE CD À 
N 


Elle est minimum pour y voisin de 4 1/2 et varie très lentement dans 
cette région, Pratiquement : 


Pour # = 1, l'écart type sur g est environ : 


d pour Nv 100 
2 F 400 
i$ . 1 000 
6 


Mais lorsque y varie de 2 2 10, on peut regarder cet écart type comme 
prafiquement constant et égal à : 


Z 

T pour Nr 100 
5 

1 LL] 

= 400 
1 ss 

z 1 000 


Linsi, lorsque y ne dépasse pas 10, g fournit un test de normalités 
assez üfilisable, 51 l'on songe que, pour la loi de GAUSS, il correspond 
au sixième moment réduit y, , sa précision est fort satisfaisante, Nous 
verrons comment, même pour v_>1, il correspond encore à un moment 
d'orére 6, Nous l'appellerons le “gaussien", nom qui sera justifié par 
l'intferprétzfion es lois normales, 


Signalons, pour terminer, un procédé simple pour caiculer l'indice. 
Il consiste 2 remarquer que, pour une Îoi normale, on a : H + L_ p,,- Le 
Mais on devra prendre garde qu'en évaluant p, par la plus grande fréquence 
<rpérimentzie p, , on Le surestime presque sûrement. Si donc l'ordre des 
événements est effectivement inconnu, la relation précédente se préte 
plutôt au calcul de p, en partant de y . Mais si les événements sont ordon- 
nés, L2 détermination zraphique de p, peut se faire avec une assez bonne 
précision, parfois, pour fournir une valeur satisfaisante de y (2 condition 
d'admettre que la loi est normale). 
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CONCLUSIONS : ANALYSE INTRINSÈQUE D'UNE LOI DE FRÉQUENCE 


Nous arrivons à la partie la plus importante mais la plus aventureuse 
aussi de cette étude, celle - du reste - qui nous a suggéré toute la théorie. 


Les hypothèses que nous allons faire sont, évidemment, d'un caractère 
assez téméraire, et prêtent sans doute à de fortes contestations. Nous les 


ferons seulement comme des hypothèses de travail: l'application à des cas 
concrets, et spécialement à la biologie, montrera si ces hypothèses sont 
fécondes, donc légitimes : montrera également quel en est le champ 
d'application. 


Le problème que nous avons en vue est le suivant : 


Etant donnés des événements e; que nous ne savons pas ordonner (1) 
mais qui, dans une série de N épreuves, se sont produits respectivement 
œifois, chercher un ordre caché sous ces événements. 


L'hypothèse de travail que nous utiliserons consiste à admettre que 
les variables ''naturelles'' sont indépendantes et gaussiennes. 


Il n'est pas possible de définir ce que sont des variables ''naturelles!!, 
Nous supposerons en avoir une idée intuitive suffisante, On pourrait dire 
que ce sont celles qui caractérisent les données ''élémentaires!"' du pro- 
blème les phénomènes physiques ''simples!''. Tout cela reste aussi vague 
et nous n'y insisterons pas. Disons qu'une variable ''naturelle!!' est celle 
dont l'emploi dans le calcul ou la description du phénomène est le plus 
lcommode'', et contentons-nous de ce pragmatisme, qui est, après tout, 
à la base de toute science (2) 


L'idée que les variables ‘'naturelles!'' doivent être ‘'indépendantes! 
est admise plus où moins par tous les statisticiens. Nous y reviendrons 
au chapitre suivant et appellerons ‘'canonique'' un ensemble complet de 
variables vérifiant une telle condition. 


Que les variables ‘''naturelles!'' doivent suivre la loi de GAUSS, cela 
sera bien plus contesté (3) : cela se justifie partiellement par la commo- 
dité de cette loi ; par le fait qu'elle représente asymptotiquement la loi 
du binôme,par sa stabilité vis-à-vis de l'addition. Mais c'est l'expérience 
qui montrera seule si cette hypothèse est légitime, et nous ne la discute- 
rons pas à priori. 


Ces hypothèses faites, en présence des événements non ordonnés ei 


de fréquences expérimentales p; = voici comment nous pourrons 
procéder : 


(1) D'autres fois, nous saurons incomplètement le faire. 
(2) Notons cependant qu'une variable naturelle doit être une variable propre, c'est- 
à-dire posséder un seuil de repérage expérimental uniforme. 


(3) J'ai donné moi-même quelques pages plus haut, une interprétation de la loi des 
erreurs qui contribuerait à affaiblir l'importance de la loi de GAUSS 
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1°/ Nous essayerons de nous assurer que les ej sont bien des événements 

propres, c'est-à-dire que les événements distincts sont bien ceux 
que nous-distinguons. 

Ce sera le point le plus délicat de la méthode : cette notion 
d'événements distincts est parfois claire (par exemple les linguistes 
de l'école française considèrent l'individualité d'une langue comme 
une notion bien définie, du moins à un moment donné : il n'ya pas 
transition continue d'une langue à une autre voisine parce que deux 
hommes ont une conscience claire de parler ou de ne pas parler la 
même langue). Mais en général on se heurtera à de grandes difficultés; 
par exemple, en économie politique, on doit regarder comme égale- 
ment distinctes des grandeurs (fortunes, chiffres d'affaires, AA) den 
progression géométrique et non en progression arithmétique, et la 
variable propre sera souvent ainsi le logarithme de la grandeur 
étudiée : comment en décider ? En pratique, c'est en cherchant 
précisément une variable gaussienne qu'on tranche la question bien 


souvent ; il y a là un cercle vicieux qui montre ce fait (qu'on ne 
devrait jamais perdre de vue en statistique) : dans l'élaboration d'une 
théorie, l'esprit humain suit toujours une double démarche, du concret 
à l'abstrait et de l'abstrait au concret, et ces deux phases se complè- 
tent étroitement, et alternent par un mouvement de balancier en 
serrant de plus en plus près la réalité. 


On n'oubliera pas, d'autre part, que la classification des faits 
dépend de notre façon de les envisager : le facteur sujet est toujours 
présent dans l'étude de l'objet (l'exemple typique est celui des proba- 
bilités géométriques} à nous de chercher la manière la plus avantageuse 
de regarder le réel. 


2°/ Les événements ayant enfin été distingués (au moins provisoirement) 
nous examinerons si nous possédons des informations ou des intuitions 
permettant de les ordonner, de fixer le nombre de variables dont ils 
paraissent dépendre, voire de prévoir le type de loi de probabilité qui 
paraît devoir leur convenir. 


Ce sont là des méthodes classiques de la statistique, il n'y a pas 
lieu d'y insister : dans la mesure où elles nous donneront des résul- 
tats,complets ou partiels,ce que je vais dire maintenant des méthodes 
intrinsèques fournira un moyen de contrôle souvent avantageux (nous 
avons noté la commodité des calculs intrinsèques même dans les 
problèmes d'ajustement classique). Dans la mesure où les considéra- 
tions que je viens de rappeler seront inapplicables, ou contestables, 
ou insuffisantes, nous recourrons aux méthodes intrinsèques, c'est- 
à-dire : 

3°/ Nous étudierons la fonction spécifique expérimentale : 
14+t 


d(t)=-L Y (t) avec Y =Xp: 


soit par la méthode graphique, soit plutôt en calculant les moments 


logarithmiques : 


GC, SENDRE Xp Reptiles pires Papi 
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(calculs n'exigeant, avec les tables nécessaires, que des additions) 
et les moments spécifiques YŸ ou plutôt : 


L'incertitude : H' = 7; 

L'indice : nee GE am RE TS 

L PA eu Sa ne us 
e gaussien : g'= ZUNE 2 IT 


; : _— Le 
On pourra commencer par examiner si g' est voisin de l'unité, 
£ Cd . 0 
avec la précision calculée au paragraphe précédent. Si oui, on peut 
espérer représenter les événements par des variables gaussiennes. 


Le nombre de ces dernières est alors donné par l'indice, avec 
une précision que nous avons évaluée plus haut. Si nous sommes en 
droit de choisir pour v un entier, nous pourrons admettre alors l'exis- 
tence de variables à l'aide desquelles la loi de probabilité s'exprimera 
par une loi de GAUSS. De celle-ci, nous connaîtrons la probabilité 
maxima, ou encore la somme des déviations types, à l'aide de l'in- 
certitude H'. Ici s'arrête le rôle de l'analyse intrinsèque. 


4°/ Pour aller plus loin, en particulier pour déterminer quelles sont les 
variables gaussiennes, calculer leurs déviations respectives (dont on 


ne connaît que la somme), il faudra reprendre la question du point 
de vue concret; ce dernier seul,en particulier, peut nous donner le centre 


de la loi, soit par la moyenne, soit, plus simplement par les médianes. 


5°/ L'analyse des événements e; étant ainsi ‘'dégrossie'!, une étude plus 
poussée sera faite en combinant les méthodes classiques et les mé- 
thodes intrinsèques. Je pense, par exemple, que les méthodes intrin- 
sèques peuvent rendre des services dans l'étude de portions de 
courbes de fréquence, surtout des portions monotones ou symétriques. 
N'oublions pas, en effet, qu'une fonction monotone est complètement 
déterminée par sa fonction spécifique,et celle-ci garde un sens même 
lorsque l'intégrale de la fonction dans la région étudiée n'est pas 
égale à l'unité, C'est ainsi que pour une courbe ayant deux sommets 
très éloignés (telles les courbes de résonnance en acoustique ou en 
électro-magnétique), on pourra calculer les fonctions spécifiques de 
chaque portion voisine d'un sommet et comparer ainsi ces portions 
à la loi de GAUSS. 


6°/Ce dernier exemple nous conduit à dire quelques mots de la question 
suivante : 


Lorsqu'une courbe de fréquence résulte de la superposition de 
deux ou plusieurs courbes simples ,on n'est pas en présence d'une va- 
riable propre. Chaque événement se décompose en deux,par exemple, 
que l'on a confondus et dont on a ajouté les probabilités. Pour rappeler 
l'exemple classique,la classification par tailles d'une population peut 
conduire à considérer comme un seul événement le fait pour un homme 
de mesurer 1m 70 qu'il appartienne à la race A ou à la race B.On peut 
obtenir ainsi une courbe à deux sommets, alors qu'il conviendrait d'en- 
visager le phénomène comme le produit de deux autres : 
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Le fait d'appartenir à la race A ou à la race B,les probabilités 
étant pA'letUupg: 


Le fait d'avoir une certaine taille (à un centimètre près par 
exemple) les probabilités étant p;. 


Alors la rencontre d'événements de chacune des catégories a une 
probabilité : p,; ou p4;, et en réunissant ces deux termes en un seul : 
P; = (Pai + Pai) on masque l'allure du phénomène (1) 


Il n'est pas possible de faire une théorie intrinsèque complète de 
ce fait : les grandeurs intrinsèques se prêtent particulièrement mal à 
l'addition des courbes de fréquence (ce qui est naturel, cette opéra- 
tion supposant les événements ordonnés). 


Toutefois, il est possible en général de prévoir dans quel sens 
jouera le fait précédent : 


Soit p la probabilité d'un événement e. Décomposons celui-ci en 
une somme de deux événements e! et e!! de probabilités respectives x 
et p-x. L'indice v subit une variation qui est sensiblement : 


DAS PL TO AUS 


C'est-à-dire : 
\) 2 [x Lxet (o2x) L?.(p-x)1--pl;? p| +4H Lx L x + (p-x) L (p-x)-p L p| 


En construisant la courbe représentative de y (x), on voit que y 
est positif pourvu que p soit inférieur à & V 2, ou, sinon, que x ne 
soit pas trop voisin de Z. Lorsque la même opération se fera non 


plus sur un terme, mais sur tous, nous devons donc nous attendre à 
ce que, presque toujours,vV augmente. 


Par conséquent : 


On reconnaîtra que plusieurs événements distincts ont été confon- 
dus à ce que v sera trop faible. 


Par exemple, nous devrons chercher à interpréter dans ce sens 
une valeur de v inférieure à l'unité systématiquement (c'est-à-dire 
d'une quantité impossible à attribuer aux erreurs expérimentales). 


Terminons par une remarque essentielle : 


Si l'on ne croit pas à la "'gaussivité"' des variables ‘'naturelles'!, 
on pourra parfois faire sur elles d'autres hypothèses. Les calculs 
que j'ai développés ne s'appliqueront plus, mais les méthodes reste- 
ront les mêmes (bien que sans doute d'une utilisation plus difficile). 


Il est encore trop tôt pour donner de la théorie précédente des 
applications pratiques. Nous essaierons seulement d'éclairer les 
idées développées sur quelques exemples théoriques. 


(1) p,A et p;i ne sont pas indépendants. 
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EXEMPLES. 


1°/ Comme premier exemple, nous rappellerons le résultat obtenu dans 
l'étude de la loi polynômiale, Nous avons vu qu'en considérant comme 
autant d'événements distincts ei l'apparition simultanée a; , à, .... 
&nfois d'événements indépendants de probabilités respectives p,...p, 
pour toutes les combinaisons distinctes d'entiers &«,...odont la som- 
me N, la fonction spécifique tend asymptotiquement vers 


At +21 (1+t) lorsque N croit indéfiniment, 


Ainsi : la loi polynomiale tend à être intrinsèquement normale, 


Sachant cela, et seulement cela, nous serons tentés, conformément 
au paragraphe précédent, de chercher si on peut représenter asym- 
ptotiquement la loi par une loi gaussienne, et a n-]l variables puis- 
que l'indice est n-1.En fait,on sait que cette tentative sera couronnée 
de succès. 


Ici, nous connaissons d'avance le résultat (1). Mais l'exemple 
est néanmoins une bonne illustration de la méthode. En outre, même 
si l'on n'allait pas plus loin, le seul fait de connaître l'allure intrin- 


sèque de la loi du polynôme suffirait à fournir la loi du X?. En effet, 


x 


la probabilité P; du terme en (&,....an)este Ÿ. La probabilité 


xi 
Nr & : ah : : 
des X inférieurs à x est 2 (EPRg Mais X n'est pas une variable 


propre. Appelons x une telle variable : c'est une fonction de X ; nous 
savons qu'elle suit une loi normale d'indice n-l ; nous savons enfin, 
en prenant son seuil de repérage pour unité, que : 
2 2 
PRIE RES 
- )n-1 -(— n =X? 
e key, Ax=e ) Ep 


Onenttiress. = su D'oùmtdx -1a (na LÉ dx 


Ce qui donne finalement la loi du X°: 
n-2 , 
FETE à og Eng: 


Il ne reste plus qu'à déterminer a de manière que la probabilité 
totale soit égale à l'unité, 


On remarquera que les calculs précédents pourraient être renver- 
sés : Si l'on connaissait la signification du X? et que l'onait obtenu 
expérimentalement sa loi de probabilité, on en déduirait la loi nor- 
male de la variable propre x , c'est-à-dire la normalité intrinsèque 
de la loi polynômiale ; celle-ci à son tour suggérerait une représen- 
tation gaussienne à n-1 variables. 


2°/ Reprenons l'exemple, donné dans l'introduction, du tir à la cible avec 
des carreaux numérotés et de surfaces égales. 


(1) M'est-il permis d'avouer que lorsque j'ai fait ce calcul j'avais oublié le résulta 
en question (sauf pour n=2)en sorte que je me suis trouvé dans les circonstances psycho 
logiques prévues par la méthode ? 
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On trouvera expérimentalement 
que les fréquences p'i outre leurs 
oscillations d'allure périodique,suivent 
une loi intrinsèquement Laplacienne 

®(t)#At+L(1+t) 


En fait l'expérience permettra 
seulement de calculer les 3 premiers 
moments spécifiques ,et le gaussien g! 
sera voisin de l'unité. L'indice v' sera 
voisin de 2, et nous penserons à re- 
présenter les événements par deux 
variables gaussiennes, 


Cet exemple appelle une remar- 
que sur certains rôles de la loi de 
GAUSS : dire que le tir à la cible suit 
une loi de GAUSS à deux variables, 
c'est dire que les erreurs physiologiques suivent une loi de GAUSS.Ce 
rôle de la loi de GAUSS en biologie peut être indépendant de son rôle 
dans d'autres questions d'erreurs (par exemple les erreurs dues aux 
phénomènes météorologiques en astronomie, aux trépidations du sol 
dans un laboratoire, etc...). On n'oubliera pas que les principales 
erreurs expérimentales ont pour cause l'imprécision de jugement 
de nos sensations, même lorsque les mesures sont faites automati- 


tiquement : cet automatisme n'étant jamais que celui d'appareils 
construits par des hommes, donc imparfaits pour des causes physio- 
logiques. 


En gros, les erreurs physiologiques sont dues à l'existence des 
seuils différentiels des sensations.Qu'au-dessous du seuil différentiel 
le jugement suive une loi de GAUSS, c'est là une question que l'on peut 
étudier expérimentalement. 


s 


On voit l'intérêt qu'il y aurait à savoir exactement le degré de 
validité de la loi de GAUSS en biologie. 


3°/ Revenons enfin sur l'étude du jeu de la roulette. 


On trouve que les 35 cases (que je supposerai numérotées de 
1 à 35 dans l'ordre naturel) ont des fréquences très sensiblement 
égales, Donc v = 0. Ce résultat nous suggère, d'après ce que nous 
avons vu, que des événements distincts ont été réunis. Si alors nous 
distinguons l'arrêt de la bille dans la case i suivantqu'il s'esteffectué 
après des nombres différents, k, de tours (je suppose pour simpli- 
fier que la bille soit toujours lancée du même point : sinon il faudrait 
changer à chaque fois le numérotage des cases) nous serons conduits 
à prendre comme variable le nombre total de cases parcourues : 
i+35k=j., Et j suivra une loi de GAUSS. 


Ces exemples, en attendant des applications à des questions nou- 
velles, feront comprendre, je l'espère, les possibilités et les limites 
de l'analyse intrinsèque : celle-ci suggère, mais, pas plus qu'aucune 
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méthode statistique, et même moins encore, elle ne résout complète- 
ment les questions. Plus qu'aucune méthode, elle exige le contrôle 
permanent des faits pris en eux-mêmes : ce contrôle pouvait à la 
rigueur, en statistique classique, ne se faire qu'avant l'étude théori- 
que ; en statistique intrinsèque, c'est, au contraire après la théorie 
que l'examen des faits devient indispensable, C'est le lieu, plus que 
jamais, de citer ces lignes de M. DARMOIS : 


‘Les mathématiques et la théorie des probabilités ne sont que 
‘des moyens que l'esprit emploie pour donner une réponse aux ques- 
tions qu'il se pose. Mais il peut se poser des questions sans intérêt 
lou sans issue, ou bien donner à des questions intéressantes des 
llréponses absurdes, même en employant correctement l'outil 
mathématique!'. 


CHAPITRE IV 


SUR LA CORRELATION 


AVERTISSEMENT. Ce chapitre a été rédigé de manière à pouvoir étre lu 
indépendamment du reste de l'ouvrage. 


INTRODUCTION : DÉPENDANCE ET CORRÉLATION 


La notion de corrélation a été surtout étudiée par des expérimentateurs 


et le domaine de cette étude est assez embrouillé. Nous voudrions tenter 
d'y mettre un peu d'ordre en dégageant les fondements théoriques d'une 
notion restée trop empirique. 


| dd 


2°/ 


Tout d'abord, distinguons clairement dépendance et corrélation. 


Le terme de dépendance stochastique doit être réservé au calcul des 
probabilités. Ce n'est pas une notion expérimentale. Deux lois de 
probabilités sont indépendantes lorsque Pi, = P; x p; ; elles sontplus 
ou moins dépendantes suivant qu'elles sont plus où moins ''éloignées!! 
de vérifier cette relation : nous verrons à donner un sens à cette 


notion. 


Le terme de corrélation a toujours eu un sens nettement statistique, 
mais son emploi se ressent des débuts empiriques de la science 
statistique :les premiers statisticiens ont été surtout sensibles au fait 
que la valeur moyenne d'une grandeur x ne variait pas avec une gran- 
deur y.Cette constance de la moyenne, pour être frappante, pour être 
même souvent suggestive, n'en est pas moins dépourvue de significa- 
tion théorique profonde :une variation d'écart type est l'indice, autant 
que celui de la moyenne, d'une action d'un phénomène sur un autre. 


Ce fait est aujourd'hui bien compris ; mais on tend à le masquer 
en conservant une terminologie amphibologique. Nous proposons de 
donner du mot ‘''corrélation!'' la définition suivante, volontairement 
vague : 


Le degré de corrélation entre deux variables aléatoires expéri- 
mentales est le degré de dépendance que nous pouvons raisonnablement 


attribuer à leurs lois (inconnues) de probabilité. 
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Nous précisons ainsi la valeur purement expérimentale du mot 
corrélation, dont la dépendance n'est que l'image théorique. Il sera 
possible de bien des manières d'évaluer le degré de corrélation ainsi 
défini : la variation de la moyenne en est une, bien primitive sans doute, 
à laquelle on pourra réserver le nom de : corrélation empirique. 


3° Pour en terminer avec les questions de terminologie, ajoutons 
qu'avec M. DARMOIS nous appelons covariation la corrélation entre 
les variations épiséculaires € ,n de deux variables, x y, lorsque 
chacune de celles-ci est la somme x = X +E d'une partie X(t) fonction 
du temps et d'une partie aléatoire . Le mot corrélation est, bien en- 
tendu, pris ici dans le sens que nous avons défini plus haut, 


Nous commencerons par étudier la dépendance de deux lois de 
probabilité, essayant de donner un sens non purement empirique à 
l'expression ‘degré de dépendance'', Ensuite nous examinerons 

NE 2 2 3 
comment utiliser les résultats obtenus pour évaluer la corrélation 
entre deux lois de fréquence. 


Première Partie 


LA NOTION DE DÉPENDANCE 


1°/ NOTATION 


La théorie de la dépendance stochastique peutse faire sans parler 
de variables aléatoires, comme l'avait remarqué PEARSON. Nous 
procéderons ainsi, mais pour abréger le langage, nous désignerons 
par un mot unique une série complète d'événements e,, e,...ej...en : 
nous la nommerons un ''phénomène!'!' et la noterons [i] suivant une 
convention que nous allons expliquer. Par série complète nous enten- 
dons que la probabilité totale p, + ... + p, est égale à l'unité, et que 
les événements sont indépendants et incompatibles, 


Si maintenant [i] et [ j] sont deux phénomènes formés respec- 


tivement des événements e,.., ej...: en, -e4. ...e;... en ,La rencontre 
de e; et de el est un événement ef; que nous appellerons le ‘produit! 
de ej et de eï e =ei. eÿ = ei. ei. L'ensemble des ei constitue 


un ''phénomène!'! que nous noterons [ij] et appellerons ‘produit ' dei] 
et dej] Lorsque toutes les probabilités Pi; seront égales à Pp:; .p; nous 
dirons que[ilet[j]sont indépendants 


Nous appelons ''incertitude!'' d'un phénomène | i] et désignons par 
H; la quantité positive Hj =-Zpilp,. Divers résultats (chapitre III) 
montrent que la prévision du résultat d'un phénomène est d'autant 
meilleure que H est plus petit. En particulier lorsque H = o un seul 
événement est possible et sa probabilité est égale à 1. 


Nous venons de voir que nous simplifions les notations classiques 
Pig Pis Pisj en général, en effet, nous n'aurons pas besoind'isoler 
un des événements, et pour distinguer les événements des différents 
phénomènes, nous nous contenterons de changer le nom de l'indice, 
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sans modifier sa place. De même nous ferons usage dans les somma- 
tions d'indices muets dont le nom sera significatif du phénomène, 
Ainsi Hi sera l'incertitude du premier phénomène, Hj celle du second, 
Hij celle de leur produit n; et nj seront les nombres d'événements 
de [i] et def[j]. En cas d'ambiguïité nous reviendrons à la notation 
classique. 


Enfin, nous désignerons par {ei} ou simplement par p) l'en- 
semble des p:, et par F {P une fonction F (b, CE P,) des nvaria- 
blès D-cup.- 


2°/ "DEGRÉ" DE DÉPENDANCE. 


Deux phénomènes [ i] et [ j] sont indépendants lorsque Pi = Pie. De. 
Lorsque cette égalité n'est pas vérifiée, il y a ‘''dépendance!!, 
Comment mesurer celle-ci ? On a recours en général à une notion 
empirique de distance , distance quadratique analogue au X'et qui 
fournit le carré moyen de contingence : 


g2EE (pi - pi p;) 
Pi P; 

Mais il y a bien d'autres manières de distancier un espace abs- 
trait et la précédente ne s'impose pas d'une manière exclusive. Nous 
allons reprendre la question en la rattachant à la statistique, ce qui 
n'est pas en contradiction avec la distinction faite au début : la notion 
de dépendance n'appartient pas à la statistique, mais c'est en vue de 
son utilisation en statistique qu'elle est utile, 


Effectuons, sur le phénomène [ij] = [i].[j], une série de N 
épreuves indépendantes, Nous obtiendrons des fréquences expérimen- 
tales : 

fij = Ci / N pour l'événement eij,et des fréquences fi à 5j» — 


f; => fi pour les é; et les ei : cet ensemble de fréquences fi; 
1 
constitue le résultat de notre série d'épreuves, et nous le noterons R. 


Si les phénomènes [ilet{[j] sont indépendants, le résultat R 
ne vérifiera pas nécessairement la relation fij = fi. fj, mais on doit 
s'attendre à ce que la probabilité pour qu'il la vérifie soit alors à son 


maximum, 


Si les phénomènes [i]let{j] ne sont pas indépendants, la proba- 
bilité d'un R indépendant sera d'autant plus faible, devons-nous penser, 
que nous serons plus éloignés de l'indépendance. Si l'on veut, on peut 
dire encore que : lorsque [i]et{[j]ne sont pas indépendants, un 
résultat R vérifiant fij = fi fj nous trompe sur la dépendance des phéno- 
mènes, nous masque celle-ci. Moins ce résultat trompeur est à 
plus noùs regarderons les phénomènes comme dépendants. 


craindre, 


Le degréide dépendance ne peut être correctement défini que par 
la probabilité d'obtenir un R vérifiant fij = fi f;. 


Malheureusement, cette probabilité est beaucoup trop difficile à 
calculer. Au reste, elle dépend du nombre N des épreuves, et nous 
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ne devons nous intéresser qu'à sa partie principale lorsque N croit 
indéfiniment. Celle-ci elle-même est encore peu calculable, En revan- 
che, on peut obtenir une probabilité qui est étroitement liée à la précé- 
dente : la probabilité P du plus probable des R vérifiant fjj = fi. fj. 


Cette manière de mesurer le degré de dépendance n'est pas 
encore parfaite, évidemment : mais elle trouvera sa justification 
complète dans la mesure de corrélation. 


Calculons P,. Le plus probable des R vérifiant fi = fi. fj cor- 
respond au plus probable li} qui est |pi} et au plus probable {£ 
qui est |pjj. P est donc la probabilité d'obtenir pour fij la valeur 
Pi P; c'est-à-dire pour «ij la valeur Npip; . Cette probabilité est : 


TT (NP: p: | Nb:p: 
Fe LANRRARE Pi 8 1) TT (P;;) PiFj 
N 1 


La formule de STIRLING donne sans difficulté pour partie prin- 
cipale de L P : 


L'P-ARNEE UT LP 
N  p; P; : 
Nous sommes ainsi conduits à prendre 22 p;; LL = Viicomme 
J 


mesure du degré de dépendance. : 
On peut l'écrire encore : 
Qjÿ=2 Zp;; LP; 2025 p; Lp: -Zp;t P; 2e EN Er 
Nous appellerons (ile module de dépendance : 


Le module de dépendance de [i] et de [j] est l'excès sur l'incer- 
titude du produit [ij] de la somme des incertitudes de chaque phéno- 
mène Q;= H; #r H; = E;; . 

La manière dont nous avons obtenu ( suggère qu'ilest minimum 
dans le cas de l'indépendance. Nous allons vérifier ce résultat ; mais 
on devra prendre garde que - N(2 n'est que la partie principale de LP 
et quand nous trouverons 0 pour minimum de (, on ne devra pas en 
conclure qu'alors P = 1. 


3°/ ADDITION DES INCERTITUDES. 


Une première démonstration du résultat annoncé consiste à 
chercher le minimum de (ij lorsqu'on fait varier la loi [Py en 


maintenant fixes les lois {p:) et {P;) . Il suffit de chercher le 
maximum de Hi; 


Ona: dHi, =ZZ(G+Lp;)dp;=22LPp; dpi; 
Mais les Pij sont liés par les relations : 
Z pi; = P; 2 pi; = P. Donc : 
2 dp;; OU LÉ. .n) 


2 dpi; 2 ON(S 2 En) 
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Pour annuler la différentielle liée de Hij, nous déterminons des 
nombres aj indépendants de j, et bj indépendants de i, et nous 
annulons : 


(Lpij - ai -bi) dpi 


Donc pour qu'il y ait maximum, il faut que Lpij puisse se mettre 
sous la forme ai +bj, c'est-à-dire que pi, soit le produit d'une 
quantité ne dépendant que de i et d'une quantité ne dépendant que de j : 


Pour que Qi; soit minimum, il faut que les probabilités soient 
indépendantes, (le raisonnement ne s'applique que si tous les P; 


sont 0). 
Calculons ce minimum : 


Pij 
= 2 2 Pi; ES 


=79 
P; 

Ainsi, dans le cas de l'indépendance, Hij = Hi + H;. 

En admettant alors provisoirement que ce cas correspond effec- 
tivement au minimum de (1, nous obtenons le théorème suivant : 


Quand on compose deux phénomènes, l'incertitude du produit est 
au plus égale à la somme des incertitudes partielles ; elle ne lui est 
égale que dans le cas de l'indépendance ; elle lui est d'autant plus 
inférieure que les deux phénomènes sont plus étroitement dépendants. 

Dans cette dernière phrase, il est entendu que le degré de dépen- 
dance est défini par la probabilité P du résultat le plus probable 
vérifiant fi = fi. fj ; sinon ce serait une tautologie. 


4°/ ÉTUDE DU MODULE DE DÉPENDANCE 


Dans la pratique, on a l'habitude d'user de préférence de grandeur 
variant entre des limites fixes, 0 et l parexemple. (ii ne remplitpas 
cette condition, mais nous verrons qu'il suffit de considérer à sa 
place le quotient : 


H.: = Gi) 


que nous appellerons le ''module réduit de dépendance!" 


Nous allons maintenant démontrer complètement le résultat 
annoncé : 


THÉORÈME. Le module réduit de dépendance est toujours compris entre 
0 et 1 ; il ne s'annule que pour l'indépendance stochastique ; il n'atteint la 
valeur 1 que pour la liaison biunivoque. 

La dernière partie se démontre immédiatement. En effet pi> Pp; 
l'égalité n'ayant lieu que si la ligne i ne contient qu'une seule probabilité 
non nulle, De même P; > Pi - On en conclut : 


(1) 
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L'égalité n'est possible que si dans chaque ligne et chaque colonne 
n'existe qu'une probabilité non nulle. 


Pour démontrer la première partie, nous nous servirons de l'inéga- 
lité : x L_ x>> x-1, l'égalité n'ayant lieu que pour x = 1. La démonstration 
en est immédiate par le tracé de la courbe : y = x Lx 


Nous prendrons pour x la quantité + Ets 5 
PRE; 
e 
QD br Ee SU AE LUS DE pr Fisye We 
: FEES P; P; P; 5 > !°J LP: P; 


Cette dernière quantité est nulle et (ii est toujours positif à moins 
que tous les quotients P;/P p,ne soient égaux à l'unité (auquel cas 
Q:;, = 0). Donc : wjÿ > o 


LIAISON FONCTIONNELLE, On appelle souvent ‘'liaison fonctionnelle! 
ce que j'ai appelé liaison biunivoque. Cette expression, comme on le 
sait, est très défectueuse : la notion véritable de liaison fonctionnelle 
est beaucoup moins précise que celle d'indépendance. Nous aurons à la 
discuter, mais cela ne pourra se faire qu'au moyen de l'analyse 
intrinsèque ; aussi avons-nous réservé cette discussion pour le 
chapitre V. 


On notera un fait intéressant : le théorème précédent et sa 
démonstration s'appliquent à des lois à un nombre quelconque 
d'indices, En particulier pour les trois indices i , j , k , on obtient 
les résultats suivants : 

Hi + Hj + Hk - Hijk 
2 Hijk 
la première égalité exprimant que les 3 phénomènes [i] , [5] et [k] 
sont indépendants, la seconde correspondant à une liaison biunivoque 
à un degré de liberté (incorrectement : une courbe) 
a L ET 

Ensuite : 0 Hij_ + Hu - Hijk l 

Hk 


La première égalité signifie que [k] est indépendant de [ii] cle 
seconde correspond à la liaison biunivoque à deux degrés de liberté 
(incorrectement : surface) ; celle-ci peut d'ailleurs s'exprimer par 
d'autres relations rétablissant la symétrie entre i, j,; k lorsque 
celle-ci existe, 


5°/ APPLICATIONS. 


Si l'on veut utiliser le module de dépendance pour des représen- 
tations continues, on devra remplacer les sommes par des in- 
tégrales (1). 


(1) I1 faudrait se reporter ici au chapitre Il et à ce que nous y avons dit au seuil de 
repérage : mais celui-ci s'élimine à la fin du calcul (voir aussi chapitre III, sur les 
lois semblables , page 40). 


6°/ 
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En appelant f(,,4,), gx) et h (y) les densités de probabilité, 
nous poserons : 


f 
a, [ fitÆaa-f fr fax à - feu sax- fin dy 


En particulier pour la loi de GAUSS à deux variables, on voit 
aisément que ( ne dépend pas des unités de longueurs, En prenant 
alors la loi réduite, et désignant par r le coefficient de corrélation, 
on trouve : 1 


Q,,= L Vire (w,;yn'a plus de sens (1) ) 
La probabilité P d'obtenir les fréquences indépendantes les plus 
probables est ainsi : N 
P#e N9 2(j-r?) 


2, 
Telle est, pour la loi normale, une signification du coefficient 
de corrélation, 


Cherchors la partie principale de (2 au voisinage de l'indépen- 
dance. Pour cela, posons Pij = Pi P; + ei. 


Nous aurons : 


Q 22 (D. P; GE 0 AN 1e Lys fi = g 


2 Pi P; 
Cette dernière expression est la moitié du carré moyen de contin- 
gence qui apparaît comme d'un emploi équivalent à celui du 


module de dépendance lorsque les ei; sont suffisamment petits. 
Inversement, nous remplacerons souvent alors @?par 2 ( cette 
dernière quantité étant, comme nous le verrons, d'un calcul plus 
aisé. 


ERREUR PROBABLE,. 


Soient eij des événements de probabilités respectives pj. Nous 
effectuons N épreuves : chaque événement se produira &ij fois et sa 
fréquence Pi = ot; /N sera plus ou moins voisine de pi; .- Sinous cal- 
culons (2 à l'aide des P'i; au lieu des Pij> nous obtiendrons une l'va- 
leur présumée! (' plus ou moins voisine de ( , Nous allons estimer 
l'écart Q'- 0 = AQ à craindre, 


Ona: AQ#22Z(1+Lp;;) A p;;-Z(l+Lp;) À p; -Z(1+Lp;)APp; 
us A0#ZZL Fi A p; 
DE 
puisque 2 LA p; = O0, Zap; = Ap;, 2 AP; = A Pp; 
Si l'on pousse l'approximation jusqu'au second ordre : 


AP; LP; AP; 


AQ#2 ZL nt ee 


(1) A moins de définir le seuil de repérage (chapitre Il) 
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Or la valeur moyenne de À pi; est zéro. Celle de A? pi; est 
Ad 
N 
On en conclut pour la valeur moyenne de A 0Q : 
= mimi) sn; Lil sinjiol Taleil}a{n;esl) 
Mots cN N N N 
AQ représente l'erreur systématique ; on voit qu'elle est 


toujours par excès et ne dépend que des nombres d'événements et 
d'épreuves. 


Quant à l'erreur quadratique probable, sa partie principale est, 


suivant des calculs connus : Pj 
> 20: Age 

5 Pi P; 
AA # ge 


1 
Donc on est"de "l'ordre "de et l'erreur systématique est en 
énéral négli VN 
général négligeable. 


Il n'en va peut-être plus de même lorsque {2 est petit. Alors les 
Pi sont voisins de p; P; » et nous poserons : pi; = P; P; +Eij. 


On obtient comme valeur tira de A0 


NA?OHDE dl #2 
P; 
Au, voisinage de l'indépendance, la partie principale de l'erreur 
quadratique est donc : 
_ 20) K 
2 ———— 
A Q + N N° 
Si Q est très petit, K ne sera négligeable que pour un nombre N 
d'épreuves suffisamment élevé. Et pour Q = 0 , il devient nécessaire 
de connaître K . On peut utiliser les résultats obtenus sur le carré 
moyen de contingence ( @'? # 2 Q') 


2 Le Le 1 (nj +1) - 8 


œ 
(@) 
N° 
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Deuxième Partie 


LA NOTION DE CORRÉLATION 


1 - LE MODULE DE CORRÉLATION 


Soient ei; des événements dont nous ignorons la loi de probabilité Pij » 
mais qui, au cours de N épreuves, se sont présentés avec des fréquences 
relatives : fi =ij /N. Le module de dépendance de [i] et de [ji] est la 
fonction : 


Q=22Zp, Li = [P;] 


1P; 
des probabilités inconnues Pi; 


Nous pouvons chercher une valeur présumée de ( en prenant : 

Q' = © (£i , c'est-à-dire en prenant Pi; = fi comme valeurs présu- 

mées des Pi Ce procédé est le plus simple, et il est correct loin de 

l'indépendance, puisque l'erreur systématique est alors négligeable devant 
l'erreur accidentelle. 


La grandeur expérimentale ainsi définie s'appellera module de corré- 
lation. On ne doit pas le confondre avec le module de dépendance dont il 
n'est qu'une valeur présumée pas toujours la meilleure. 


On peut encore, et c'est la méthode la plus intéressante, donner une 
définition directe du ''degré de corrélation!', 


Nous ignorons les valeurs des P; ; il se peut que ces valeurs soient 
stochastiquement indépendantes, bien que nous n'ayons pas fi, =fi.f). 
Pour étudier la ‘'vraisemblance!' de cette hypothèse, nous chercherons la 
loi indépendante P'; = p'. p' la mieux ajustée aux fréquences expéri- 
mentales fi; , en employant le maximum de likelihood. - On trouve 
pi=fi, p; =fj. Il reste à déterminer la probabilité pour que les fij aient 
été produites par cette loi pi . Un calcul en tout point semblable à celui 
qui nous a donné ( (bien que fréquences et probabilités soient permutées), 
conduità: LP -NQ' 

en posant précisément ('= {£ij) 


Cette définition du degré de corrélation me semble la seule correcte. 


Or, elle justifie, inversement, la définition que nous avons adoptée 
pour ( , grâce à cette remarque évidente : 


Lorsque le nombre N des épreuves croît indéfiniment, le module de 
corrélation converge en probabilité vers le module de dépendance. 


Enonçons au-dessous la définition directe de “6e 


La vraisemblance pour que les phénomènes [i] et [j] soient indépen- 
dants, lorsqu'on sait qu'au cours de N épreuves les événements ei; se 
sont produits avec des fréquences fij , a pour logarithme : LP # -N©Q. 
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Il - RECHERCHE DE LA CORRÉLATION (phénomènes indépendants 
du temps) 

Dans la définition du module de corrélation, nous avons supposé im- 
plicitement que la loi de probabilités : pi;) ne dépendait pas du temps,ou 
que, du moins, les N épreuves étaient faites durant une période assez 
brève pour que l'influence du temps soit négligeable. 


Il n'en est pas toujours ainsi dans la pratique, aussi est-il nécessaire 
de spécifier que nous allons d'abord nous borner à ce cas. 


Soit donc S une série de N épreuves indépendantes au cours de laquelle 
l'événement eij, de probabilité inconnue mais constante pi;, s'est produit 
œij fois. Le problème qui intéresse en premier lieu le statisticien n'est pas 
de connaître le degré de dépendance ( des p;j_inconnues, mais plutôt de 
savoir si l'on peut ou non admettre que () = o. 


C'est à cette préoccupation que répond notre définition directe du 
module de corrélation, grandeur expérimentale donnée par : 


NOM INT a lions -cuai li cs NUIEENS 


Suivant les cas, nous serons plus ou moins exigeants sur la grandeur 


! 
de P = cons . Admettons par exemple qu'une probabilité de l'ordre de 


10% soit regardée comme équivalant à une impossibilité ; cela correspond 
à NQ' de l'ordre de 15.Si donc N Q' atteint ou dépasse une telle valeur, 
nous serons en droit d'exclure une hypothèse d'indépendance entre [i] et 
[j] : c'est en cela que consiste vraiment l'idée de corrélation. 


Une fois de plus, on voit que les renseignements que l'on peut deman- 
der à la statistique sont principalement de caractère négatif : nous appre- 
nons qu'''il y a quelque chose!'!, mais nous ne pouvons dire en quoi ce 
quelque chose consiste. Inversement, si la statistique ne décèle rien, 
cela ne prouve pas qu' ''il n'y ait rien!' : on sait que la probabilité avec un 
dé d'amener un résultat pair est stochastiquement indépendante de la 
probabilité d'amener un multiple de 3, bien que ces deux catégories d'évé- 
nements soient étroitement liées, 


Aussi une petite valeur de NQ' est-elle, au contraire, d'une grande, 
très peu significative : si nous avons des raisons de croire à la non- 
corrélation physique de[i] et [j], la non-corrélation statistique confirme 
notre hypothèse, mais il ne faut pas en demander plus, Une forte corréla- 
tion statistique, au contraire, nous contraindra à réviser notre analyse, 
surtout si une nouvelle série d'épreuves, une augmentation de N,une 
modification des conditions expérimentales nous redonnent pour N Q! 
des valeurs systèmatiquement élevées. 


Peut-on aller plus loin ? 


Il est d'usage, lorsque (l' présente, au cours des épreuves, une 
certaine stabilité, d'y voir une valeur présumée du module de dépen- 
dance (2 . Les calculs d'erreur que nous avons faits indiqueront les 
conditions dans lesquelles ce procédé est légitime : mais il ne nous semble 
pas très intéressant en lui-même, La connaissance du module de dépen- 
dance n'est pas très instructive, à moins de faire certaines hypothèses 
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sur la structure des faits étudiés : ces hypothèses concernent la notion de 
variables naturelles, notion obscure dont nous avons parlé à la fin du 
chapitre précédent, 


L'existence d'une corrélation entre deux phénomènes [i] et [j] ou 
deux variables x; et y; peut indiquer que les événements eij dépendent de 
plus de deux paramètres, et que x et y sont des fonctions plus ou moins 
heureusement choisies des''vrais!'' paramètres : l'analyse intrinsèque sera 
d'un certain secours pour éclaircir cette question, mais naturellement le 
pioblème devra être repris directement. 


Mais la corrélation entre x et y peut signifier simplement que le 
nombre des paramètres étant correct, leur choix ne l'est pas.Alors, mais 
alors seulement, une faible valeur de Q est intéressante, et suggère que 
les paramètres corrects pour représenter les faits ne diffèrent pas beau- 
coup de x et y. Enfin, une forte valeur de (2 pourra suggérer une réduction 
du nombre de paramètres, c'est-à-dire une liaison fonctionnelle entre 
>. MN LA 


Dans tous les cas, ce sont des problèmes d'analyse intrinsèque qui 
sont ainsi posés : celui du nombre des variables relève du chapitre II ; 
celui de la nature des variables (''variables canoniques'!) sera examiné au 
chapitre V, ainsi que celui de la liaison fonctionnelle, 


Tirons de ces lignes une conclusion sur laquelle on n'insistera 
jamais trop : 


La principale fonction de la statistique est d'inciter à de nouvelles 
recherches concrètes, de faire réviser d'anciennes interprétations dont 
elle a montré l'invraisemblance. La statistique infirme les théories 
fausses plus qu'elle ne confirme les théories exactes : ces dernières, 
elle ne peut que timidement les suggérer. 


CORRÉLATION ENTRE PHÉNOMÈNES DÉPENDANT DU TEMPS 


Soit encore S une série d'épreuves portant sur des événements ei; 
nous supposons maintenant que la probabilité Pi varie avecile temps OÙ, 
plus généralement, varie suivant les épreuves. Si cette variation est 
quelconque, il semble impossible d'obtenir aucun résultat, et la méthode 
classique des ''Time series!'' construites avec les fréquences nous paraît 
dépourvue de toute signification. Dire que les àjj rencontrés au cours des 
épreuves sont plus ou moins en''corrélation apparente! n'a vraiment aucun 
sens : il est parfaitement possible qu'à chaque instant : p; (t) = p;(t) x p;(t) 
et que néanmoins les valeurs moyennes Pi , Pi etp;ne vérifient pas le 
moins du monde ,même d'une manière approchée : DR Pin: A les œij ne 


nous renseignent que sur les valeurs moyennes ‘Pi Ses Ê Pi; (t) dt, 
des ts 
Inversement, et c'est ce qui arrivera le plus souvent, on peut avoir 


Pi # Pi P; bien que [i] et [j] présentent une forte dépendance : Qi; (t) 
très différent de zéro. 
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Nous n'étudierons donc la corrélation entre {i] et F34] que moyennant 


l'hypothèse suivante : 


Bien que les p;; inconnus varient au cours de la série d'épreuves $, 
il est possible de découper celle-ci en K séries partielles (chacune du 
même nombre N d'épreuves, par exemple, pour simplifier l'exposition) 
Ses S! à l'intérieur de chacune desquelles {pi} soit sensiblement 


2 ... 
constant. 


Par exemple S se situera dans le temps sur un siècle, et les S' seront 
des séries décennales d'épreuves annuelles. Appelons fi; le nombre 
d'apparitions de ei; dans une série S'. Même si p; varie légèrement dans 
S', la relation Pij = Pi P; Se conserve sur les moyennes Pi; et p;,p; prises 
dans S' pourvu que les variations soient assez lentes. 


Soient alors (', A', ...les modules de corrélation dans S,, S.... - 
La vraisemblance pour que [i] et pe] soient indépendants a pour loga- 
rithme : N'(Q! dans S'! , = NQ! : dans S!'etc... ; donc : = KN Q° : dans !S 
en désignant par (' la valeur moyenne : 
és OH ES SP 
K 


C'est donc la valeur Q' précédente qui jouera maintenant le rôle du 
module de corrélation, au lieu du module de corrélation apparente que l'on 
calculerait à l'aide des fréquences totales dans S. 


Telle est la solution du premier problème. 


Etudions le second, c'est-à-dire l'évaluation de () lorsque Q' diffère 
beaucoup de zéro. Pour lui donner un sens, il faut supposer que, bien que 
(eu) varie dans S , ( , lui ne varie pas. Mais plus généralement, on 
peut chercher une valeur présumée de sa moyenne dans S: Q . La 
solution la plus naturelle consiste à prendre pour valeur présumée de ( 
la valeur moyenne des (Q' .., (Q',, c'est-à-dire Q'.Mais il faut pren- 
dre garde qu'ici le calcul d'erreur n'est plus le même qu'au paragraphe 
précédent. D'abord, l'erreur systématique doit être calculée sur le nom- 
bre partiel N d'épreuves et non pas sur K N : 


5 4 M ue 3) 
N 
Ensuite, l'écart type devra être calculé également sur chaque série 
partielle, puis divisé par VK. Si nous sommes loin de l'indépendance, 
l'écart type dans chaque série est de la forme À , où nous pouvons 


rm mg 


supposer que À ne dépend pas de la série. L'écart type sur ( est donc : 


A 
SG = VEN 
Cette valeur est la même que nous aurions obtenue pour une loi ne 
dépendant pas du temps ; l'erreur systématique est plus forte, mais cal- 
culable, l'erreur accidentelle est la même : notre méthode est donc aussi 
précise que {e:;) soit constant, ou qu'il varie - pourvu que cette variation 
ne soit pas trop rapide - du moins loin de l'indépendance. 
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Si en effet (1 # o l'erreur accidentelle est de l'ordre de < , Ce qui donne : 


B 
Ts = 
SON VK 
: B : 
au lieu deXKx que nous aurions obtenu pour une loi constante. Pour Q#o, 
la précision est moins bonne, mais on n'oubliera pas que ( est alors bien 
moins intéressant que (' qui conserve toute sa signification. Mais on 
prendra garde que si N est petit, les parties principales des erreurs peu- 
vent ne pas suffire, 


Toute la difficulté de la méthode consiste à juger si dans les séries 
partielles S' les pi, sont suffisamment constants ou linéaires. C'est en 
étudiant la nature du problème qu'on pourra se faire une idée à ce sujet. 
Faisons pourtant une remarque : il est souvent possible d'admettre que, 
bien que Jpij} varie, le ''degré"' de dépendance {) entre [i] et [j] ne 
varie pas, parce que traduisant une corrélation physique entre ces deux 
phénomènes, Alors les nombres A, Q'; , ... Q'x doivent osciller autour 
de {2 suivant une loi de probabilité que l'on pourrait déterminer, et dont 
nous avons évalué l'écart type. Si l'écart type expérimental est de l'or- 
dre de la valeur prévue, cela tendra à confirmer nos hypothèses ; mais 
il faudrait calculer l'erreur probable sur l'écart type, et celle-ci seraen 
général beaucoup trop élevée pour que la méthode soit applicable, 


Un autre procédé consiste à faire croître le nombre K des séries 

, s . ! A . . FAT EE We à . 
partielles, et à chercher si ( paraît avoir une certaine stabilité à partir 
d'une valeur suffisante de K. 


Enfin, indiquons les conséquences d'une hypothèse incorrecte sur 
les S', autrement dit, cherchons ce qui se passe lorsqu'on réunit des lois 
de probabilités nettement différentes dans une même série, 


Si les lois sont fortement dépendantes, il en résultera en généralun 
abaissement apparent de la corrélation ; ce sera même sûrementle cas si, 
Lei; ayant varié, {|p;| et }pj} sont restées constantes : unfractionnement 
insuffisant de S conduit d'ordinaire à sous-évaluer la corrélation lorsque 
celle-ci est forte. 


Si au contrairelilet [j] sont indépendants, nous devrons nous atten- 
dre à surévaluer la corrélation, 


Mais aux faits précédents s'en superpose un autre, l'altération de 
l'erreur systématique : celle-ci peut avoir l'un ou l'autre sens. Ce fait 
. . “ . ! U ' 
est capital ; il explique que l'on puisse obtenir pour 2, Q',...0% 

4 ste Lino) e 
des valeurs systématiquement inférieures à DES RTE :lorsqu'il 
en sera ainsi, ce sera un indice sûr que le fractionnement de S n'aura pas 
été poussé assez loin, ou même qu'il est impossible de former des séries 


partielles S' à lois de probabilité stables. (Etudier le terme 3) 


LA COVARIATION. 


Un cas particulièrement important de corrélation entre phénomènes 
dépendant du temps est celui de la covariation. Rappelons les données du 


problème : 6 
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On étudie deux phénomènes se déroulant dans le temps, et repérés 
chacun par une variable x (t), y (t) ; la méthode des variations concomi- 
tantes consiste à modifier artificiellement le premier phénomène de ma- 
nière à obtenir diverses courbes x; (t), x, (t), etc... 


En comparant celles-ci aux courbes y, (t), y2 (t) ... correspondantes, 
on peut en déduire une certaine corrélation entre les deux phénomènes. 


Supposons maintenant que nous ne possédions qu'une couple de cour- 
bes. La méthode précédente ne s'applique plus. Mais il peut arriver que 
la courbe x (t), régulière ou non dans son ensemble, présente des oscilla- 
tions € (t) distribuées ‘'au hasard'', La comparaison des EF (t) aux 9 (t) 
correspondants fournit alors naturellement les conditions réalisées plus 
haut artificiellement pour l'application de la méthode des variations conco- 
mitantes,. 


On n'oubliera pas, à cette occasion, comme l'a montré BERNSTEIN 
que, tandis que les À x systématiques sont de l'ordre de At, les À x 
aléatoires, c'est-à-dire, sont de l'ordre de V A t,ce qui permet de 
négliger parfois les premiers. 


Quant à la comparaison des £ et desn, qui constitue le problème 
statistique de la covariation, elle fournit un exemple typique de corréla- 
tion entre lois dépendant du temps, et sera traitée par la méthode indiquée 
au paragraphe précédent. Il faudra pour cela diviser en cases les inter- 
valles de variation de £ et de n . Pour réduire les erreurs, il y aavantage 
à prendre un petit nombre de cases, et le plus simple me paraît être d'en 
prendre 2 : les ejj seront alors les accroissements et diminutions simul- 
tanées de x et de y et l'on pourra répartir entre les deux les cas 
d'invariances. On obtient ainsi un tableau de la forme : 


y croît y décroît 
x : croît B+ + p + - 
x  décroît BE E p- - 
Il 


où f,,et fÎ__ sont majorés chacun de 
y reste constant. 


7 chaque fois que x croît etque 
De tels tableaux seront établis pour chaque période S' jugée suffisam- 


ment stable, et la moyenne des (' nous informera sur la corrélation 
possible entre x et y. 


CONCLUSIONS 


Nous espérons que les notions théoriques qui précèdent paraitront 
suffisamment claires, et qu'en particulier les sens respectifs des mots 
ldépendance'! et ‘'corrélation'' sont convenablement dégagés. On n'oubliera 
pas que, même lorsque les calculs de dépendance et de corrélation sont 
formellement identiques ,leurs valeurs restent totalement différentes, l'un 
des termes appartenant à la science mathématique abstraite, l'autre à la 
statistique, science travaillant sur le concret. 


Nous souhaitons également que le terme ''degré de corrélation!'' appa- 
raisse comme autre chose qu'une quantité empirique s'annulant lorsque 
fi = fi fj , et que les définitions que nous en avons données indiquent dans 
quelle voie on peut trouver un sens théorique à une notion intuitive. 


Pour terminer, nous ferons remarquer que le module de corrélation 
n'a pas qu'un intérêt théorique : il peut se trouver que son calcul est plus 
facile que celui d'aucune autre mesure de la corrélation, même du coeffi- 
cient de corrélation. Il se réduit en effet à des additions et soustractions. 


Sa valeur est: Q'-=LX (£ij) - SES (44 (7) en posant (x) = x L x 
il suffit de posséder une table de cette fonction pour n'avoir plus qu'à 
ajouter les valeurs numériques de (fij) etc... 


On trouvera cette table à la fin de l'ouvrage. Mais au lieu de la dres- 
ser pour x compris entre 0 et 1, nous l'avons établie pour x entier de 
1 à..., de manière à utiliser directement, au lieu des fréquences fi, 
les répétitions œjij . Voici comment on procédera. 


N Q' peut s'écrire 2 a) = (a he 2 ls) + (N) 


Les parenthèses du second membre ne contiennent que des entiers, et 
C' on obtient immédiatement N Q' qui est la grandeur intéressante, 


Quant à l'erreur probable, si on admet pour un (2 une valeur pas trôp 
grande, on aura un ordre de grandeur satisfaisant en prenant : 
; 210 2NQ' 
ER 
Si on admet ( = o ou seulement (2 # o , on se reportera aux calculs 
faits plus haut. 
Mais on n'oubliera pas ce que nous avons dit du module de dépendance 
Q, qui est beaucoup moins intéressant que le module de corrélation Din, 


et l'on se reportera à la page 61 pour ce qui est de la portée véritable de 
l'idée de corrélation (sauf la corrélation normale). 
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CHAPITRE V 


ETUDE INTRINSÈQUE DE LA COMPOSITION 


1 - LA NOTION D’HOLOMORPHIE 


Au chapitre III nous avons appliqué les méthodes intrinsèques à 
l'étude de lois à 2 indices (p;j): dans cette méthode, nous faisions 
complètement abstraction de l'ordre.des cases renfermant les diverses 
probabilités ; deux lois (pi) et (p,.) étaient isomorphes lorsqu'on pouvait 
ramener la seconde à la première par une permutation quelconque sur les 
cases du tableau représentant (p4, ). 


Une telle permutation est trop générale lorsqu'on s'intéresse au 
phénomène | ij| considéré comme résultant de la composition, du ''produit!!, 
des phénomènes [i] et[j]: dans ce cas, on peut encore effectuer n'im- 
porte quelle permutation sur les lignes i ou sur les colonnes j ; mais 
si deux cases se trouvent sur une même lign: ou sur une même colonne 
cette particularité doit être respectée : une permutation remplissant cette 
condition, réduite par conséquent à une permutation de lignes et de 
colonnes, se nommera une ''holomorphie!''. 

L'holomorphie est donc, pour les lois à plusieurs indices, une forme 
plus restrictive de l'isomorphie. On pourrait encore définir une autre 
catégorie de permutation, respectant seulement le contenu de chaque 
ligne : cela peut, dans certaines questions, avoir quelque intérêt, mais 
nous ne nous en occuperons pas. 

La question se pose alors tout naturellement est la suivante : 


De même que nous avons caractérisé intrinsèquement une loi par des 
invariants d'isomorphie, peut-on la caractériser par des invariants 
d'holomorphie, de manière à reconnaître immédiatement si deux lois sont 
ou non holomorphes ? 

De tels invariants seront qualifiés de l'semi-intrinsèques'' ; deux lois 
holomorphes seront considérées comme étant ‘'semi-intrinsèquement'' la 


même loi. 


Il semble que la solution la plus simple du problème précédent 
consiste à utiliser la fonction à deux arguments u et v : 


MMM es de bij PP 
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Nous la nommerons ‘'fonction d'holomorphie'',. Comme elle est à deux 
arguments, nous ne risquerons pas de la confondre avec la fonction d'iso- 
morphie que nous noterons encore VW (t). Quant aux fonctions d'isomorphie 
de [i] etde [j] , nous les noterons Wi (t) et VW); (t). 


La fonction d'holomorphie est évidemment invariante vis-à-vis de 
l'holomorphie, mais pas, en général, vis-à-vis de l'isomorphie. En fait, 
nous allons voir qu'elle caractérise semi-intrinsèquement la loi (Pi; ) 2e 


Nous ferons la démonstration générale avec une représentation conti- 
nue,les indices oi et j étant remplacés par les variables x et y, 
et les seuils de repérages étant pris pour unités. En appelant f(x , y), 
g(x) et h(y) les densités de probabilités, on a immédiatement : 


Vous v)e ff Ces y) 8 6 RG) àx dy 


Nous écrivons = et non pas # par convention ; nous avons déjà cons- 
taté que dans ce genre de question on peut introduire diverses expressions 
sous forme d'intégrale sans parler de seuil de repérage.Ce dernier est 
nécessaire pour donner un sens concret aux expressions envisagées, mais 
non pas pour un traitement purement mathématique. En faisant v = 0 dans 
l'équation ci-dessus, il vient : 


wife mis Î J £ (y) 89° x dy = [ 869" ax = V4 (a) 


De la même manière, on verra que: VW (0, v) = VW, (v). D'après le 
chapitre Il, nous voyons ainsi que la connaissance de Y (u ,v) détermine 
à une ‘'permutation!'' près, g(x) et h(y) : en particulier, détermine complè- 
tement g et h si on les astreint à être définies pour x=>0 , y=> 0 et à être 
décroissantes. Posons alors : & g(x) = X , % h(y) = Y . xety sont 
des fonctions uniformes et monotones de x et y (moyennant les conventions 
usuelles). Donc f(x , y) peut se noter : F (X , Y). 


Alors A mL A ed ï e abs PC: YIdxC. dyir) 


C'est là une équation classique de LAPLACE à deux variables. La 
connaissance de W (u , v) pour les valeurs imaginaires pures de u et 
de v détermine complètement F (X , Y) , donc f(x, y), comme on 
le sait (voir par exemple les démonstrations relatives aux fonctions 
caractéristiques classiques à deux variables : l'équation précédente est 
de la même forme), 


Sans qu'il soit nécessaire d'insister sur cette question, la fonction 
d'holomorphie générale ne devant guère nous servir dans la suite, nous 
voyons que : 


Une loi à double entrée est caractérisée semi-intrinsèquement par sa 
fonction d'holomorphie. 


Lorsque Y (u , v) est holomorphe au voisinage de u = v = 0, on peut 
donc caractériser semi-intrinsèquement une loi par ses ‘'bi-moments!! 
logarithmiques : 
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Po=l ossi Ce BiSdLi lys 2 2 pp; Hr%p, etc 


On pourra si l'on veut introduire une fonction ''bispécifique!! (y) (PRIE 
=-& VW (u,v), et des "'bi-moments!'! spécifiques : Var ler ii 
Nu ete. 


On remarquera que : Yy = D, - ['y.lo est nul dans le cas de 
l'indépendance, Mais il ne s'agit pas d'un extremum. Connaissant pi etp;; 
l'équation YŸy = 0 établit entre les Pi; une relation linéaire, laquelle, 
jointe aux ni + nj équations > Die F1 Pi et a Pij = pjqui ne sont pas 
indépendantes et se réduisent àn; + nj - 1, laisse à (P:; ) 
ninj-nj-nj= {(n;i-1l) (nj-1) - 1 degrés d'arbitraire. Lorsque ni =nj= 2, 


alors Y, fournit une mesure de la dépendance stochastique. 


Mais il ne semble pas que les grandeurs semi-intrinsèques aient grand 
intérêt pratique, et nous passerons à des questions théoriques plus impor- 
tantes. 


11 - HOLOMORPHIE ET ISOMORPHIE 


La connaissance de ŸY (u ,v ) caractérise semmi-intrinsèquement la 
loi (pij) , donc, a fortiori, la caractérise intrinsèquement : elle doit donc 
suffire à déterminer ŸY (t). Malheureusement il ne semble pas que le 
calcul de cette dernière fonction puisse être effectué, en général, d'une 
manière simple;c'est là un grave défaut de Y (u , v) , et peut-être y 
aurait-il lieu de la remplacer par une autre fonction ; nous n'avons pas 
obtenu de résultat dans ce sens. Pratiquement, nous avons surtout en vue 
la composition de lois indépendantes, et dans ce cas les résultats sont 
simples, 


On as: LATE 2) MD RP ETT P; Pi Pi = du) dr) 
D'autre part, on sait qu'alors : 
AO RP AO NE pa(tir te, #9 (ES, LJR 
Rappelons cependant que, d'après le chapitre IV, on a l'inégalité : 
ViO)= Y'u (0,0) + w'v (0,0) 
car le second membre n'est autre que [' + D j 


Nous allons maintenant revenir sur l'étude de l'isomorphie dans le 
cas des lois à double entrée représentées par des variables continues. 
Cette étude ne différera de celle du chapitre II qu'en ce que nous nous 
astreindrons à représenter les lois de probabilités avec deux variables au 
lieu d'une: cela introduit dans la question une plus grande arbitraire ; pour 
la limiter, imposons à la loi une condition qui généralisera la condition de 
monotonie pour le cas d'une seule variable : nous chercherons les lois 
décroissantes à symétrie circulaire. 
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Soit f (x , y) la densité de probabilité d'une telle loi. Nous la noterons 
encore, conventionnellement, f (r2). 


On a : 
: Y (t) = [NEC CE LalaitDes rdrd®8. 


En intégrant d'abord par rapport à & 


W (t) = 7x Î HN (et) 


Au facteurr près, cette équation est identique à l'équation intégrale 
étudiée au chapitre Il, en posant : x = r?. Nous en concluons que, si l'on 
sait que WY (t) est une fonction d'isomorphie, sa connaissance détermine 
complètement f(r?) , lorsqu'on impose à celui-ci la condition d'être 
décroissante. 


Nous allons déduire de ce résultat un moyen de transformer l'une 
dans l'autre deux lois doubles ayant la meme fonction d'isomorphie. 


Lorsqu'il s'agit de lois discontinues, (pi), (Pre) » il suffit dans la 
seconde de permuter convenablement les cases pour la rendre identique 


s 


à la première. Quelle sera l'opération analogue sur des variables 

continues ? Ce sera un changement de variables biunivoque, et conservant 

1: . 

l'aire : D ( X Y) 

NRC ET) ŸY-= Y (xt, y'avec ? ———5#;] 
D(xy) 


si l'on admet l'existence des dérivées premières, 


En fait,nous n'avons pas besoin de cette hypothèse. Nous supposerons 
seulement que X(x , y) et Y(x , y) conservent les mesures bidimension- 
nelles. 


Soient donc : g{x , y) et G(X , Y) deux densités de probabilités ayant 
la même fonction d'isomorphie VY (t). 


Soit : ma) la mesure de l'ensemble e sur lequel g(x , y) = a. 
et:M(a) la mesure de celui E où : EMPONA) ESS 


Posons : a) TT, M(a) = nrR° 


Admettons qu'il existe une transformation biunivoque conservant l'aire 
et faisant correspondre e et E avec les cercles de centre 0 et de rayons 
respectifs r et R : l'existence d'une telle transformation dépend des res- 
trictions qu'on lui impose, et de conditions d'analysis situs correspondan- 
tes que nous supposerons remplies. En posant alors f(r°) =a , F (R?)=a, 
on voit que f(r?) est une densité de probabilité qui admet Y (t) pour fonc- 
tion d'isomorphie, et il en est de même de F(R?). Donc fetF sont 
identiques, d'après le résultat précédemment établi, et r = R puisque 
fe?) rar (Re 
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En transformant e en cercle puis le cercle en E,la transformation 
de (x, y) en (X , Y) est ainsi réalisée (1). Ainsi : 


Lorsque deux lois de probabilité g(x y) et G (X , Y) ont la même fonc- 
tion _d'isomorphie, on peut les transformer l'une dans l'autre par un 
changement de coordonnées conservant l'aire - Sous réserve de conditions 
d'analysis situs, 


Cet énoncé complète celui du paragraphe précédent que nous pouvons 
énoncer ainsi : 


Lorsque deux lois g (x, y) et G (X, Y) ont la même fonction d'holo- 
morphie on peut les transformer l'une dans l'autre par un changement de 
coordonnées séparé : X = X(x), Y=Y(y), conservant les mesures linéaires. 


111 - LE PROBLÈME DES VARIABLES CANONIQUES 


Nous sommes maintenant en mesure d'étudier le problème suivant : 
Des événements, repérés avec les variables x et y, suivent une certaine 
loi de probabilité f (x, y). Si y et y ne sont pas à probabilités indépendan- 
tes, dans quelle mesure peut-on les remplacer par d'autres variables de 
repérage X (x, y) et Y (x, y) qui soient, elles, indépendantes ? 


Il importe tout d'abord de bien préciser les conditions imposées à 
X et Y. Dans certains cas, ils devront être des combinaisons linéaires 
de x et y ; ce cas relève des méthodes classiques etnous ne l'examinerons 
pas. 


En général, la condition essentielle à imposer au changement de 
variable est seulement de respecter la notion d'événements ‘également 
distincts'' (voir introduction), donc de conserver le seuil de repérage, qui 
est ici une surface : c'est la condition de conservation de l'aire que nous 
avons examinée précédemment. 


Nous avons autrefois (2) étudié le problème en cherchantles variables 
X , Y conservant l'aire et rendant minimum le module de dépendance. 
Nous avons obtenu le résultat suivant : 


Les variables X , Y doivent être telles que la loi des probabilités 
totales soit une fonction de leur loi de probabilités indépendantes : 


PSV ® (ey Py) . 
Or, si l'on se donne p, et p, et que l'on cherche une loi p;y pour 


laquelle X et Y vérifient la condition ci-dessus, on s'aperçoit (du moins 
sous des conditions d'un caractère assez général) qu'il n'y en a pas 


(1) Il n'était pas nécessaire de passer par l'intermédiaire d'une famille de cercles, 
Nous ne l'avons fait que pour rendre plus intuitif le raisonnement, les énoncés portant 
sur les mesures d'ensembles étant compliqués à formuler. 


(2) C.R.A,S., 206, 1938, pages 804-806 : ''Recherches des variables aléatoires 
les plus indépendantes!'. 
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d'autres que py . py . Cela suggère que, s'il existe un changement de 
variables rendant le module de dépendance minimum, le minimum est 
zéro. Autrement dit, en appelant ''canoniques'' les variables les plus 
indépendantes: 


Il n'y a pas d'autres variables canoniques que des variables effective- 
ment indépendantes . 


Nous verrons par la suite que ce résultat est purement théorique, et 
que le problème statistique des variables canoniques subsiste : cela tient 
à ce que nous venons de poser le problème en variables continues, ce qui 
n'a pas de sens expérimental. 


Quoi qu'il en soit, nous allons montrer que l'analyse intrinsèque résout 
très simplement le problème théorique tel que nous en arrivons à le poser : 


représenter une loi double f(x y) à l'aide de variables  indépen- 


dantes. 


Pour résoudre le problème, nous remarquerons que la loi inconnue 
g (X)h(Y) = f(x, y) doit être isomorphe de la loi donnée. En appelant 
donc Y,(t) et  VYa(t) les fonctions d'isomorphie de g (X) et de h (Y) , on 


doit avoir : en 
Réciproquement, supposons que g(X) et h(Y) aient respectivement Y, 
et VY; pour fonctions d'isomorphie, et que VW, VW, = VW . Alors la loi 


g(X) h(Y) admet Y ,(u) W,(v) pour fonction d'holomorphie, ce qui la 
détermine complètement.Or elle admet VW (t) pour fonction d'isomorphie, 
donc il existe une transformation conservant l'aire permettant de passer 


de g(X) h(y)àa f(x, y). 
Concluons : 


La recherche des variables indépendantes est un problème équivalent 
à celui de la décomposition en produit de la fonction d'isomorphie. 


Une restriction doit cependant être faite à l'énoncé précédent : 


La transformation de (x , y) en (X , Y) sera généralement astreinte 
à des conditions de continuité qui pourront rendre incorrect le théorème 
précédent. Mais la démarche que nous avons suivie restera valable, et 
c'est le problème de la correspondance entre des familles de domaines qui 
devra être discuté dans chaque cas : le problème de statistique que nous 
nous étions posé est entièrement ramené à des problèmes purement 
mathématiques, difficiles certes, mais bien connus. 


Le problème de la décomposition en produit d'une fonction d'isomor- 
phie est entièrement analogue au problème classique correspondant sur 
les fonctions caractéristiques. Il est plus difficile, car on n'a plus affaire 
ici, à des fonctions entières,comme c'est souvent le cas,On notera qu'une 
loi normale est décomposable d'une infinité de manières en produit de lois 
normales. (Il est possible qu'il existe à ce sujet un théorème analogue à 
celui de LEVY-CRAMER,et d'après lequel ce serait le seul mode de 
décomposition d'une loi normale), 


ÉTUDE INTRINSÈQUE DÉ LA COMPOSITION 153 


REFLEXIONS SUR LA CONTINUITÉ 


Nous avons dit dans l'introduction que la notion de loi continue de 
probabilité n'avait pas de sens expérimental ; en fait, l'analyse intrinsèque 
a été fondée entièrement sur la notion des lois discontinues, ou de seuil de 
repérage : un théorème tel que celui d'après lequel la loi de LAPLACE à 
une variable est isomorphe de la loi de GAUSS à deux variables n'aurait 
vraiment aucun sens autrement, Et pourtant, on est frappé de ce que 
l'isomorphie entre ces deux lois, qui ne serait qu'approchée avec des 
lois discontinues, est rigoureuse avec les lois continues d'interpolation. 


On doit également se souvenir que la modification du seuil de repérage 
introduit la notion de lois ‘'semblables'' , notion qui ne seraitqu'approchée 
avec des lois discontinues, qui devient rigoureuse avec des lois 
continues: 


Pour représenter par une loi continue une loi double discontinue p;:, 
nous devons imaginer que dans chaque case Ci; est répartie une densité de 


probabilité f (x , y) telle que Î Î f(xy) dx dy = p; «+ La fonction f 
Ci 
peut être choisie d'une infinité de façons ; la plus simple est la densité 


homogène Pi ; mais ce n'est pas nécessairement la plus avantageuse. En 


n'est pas définitif et qu'il sera possible de le diminuer. On souhaite alors 
que la fonction f (x , y) convienne encore pour ce nouveau seuil, etpour 
cela on lui impose certaines conditions intuitives de ‘'régularité'' : si l'on 
admet que,en perfectionnant les instruments de mesure,on pourra réduire 
sans limite le seuil de repérage, il doit alors exister une fonction f et 
une seule (sauf une modification sur un ensemble de mesure nulle) qui 
conviendra toujours. La physique moderne suggère, il est vrai, que cette 
diminution du seuil de repérage possèdera fatalement une limite : mais 
cette limite est si petite par rapport aux seuils actuels que l'arbitraire qui 
en résulterait pour f (x y) est tout à fait négligeable, dans la pratique. 
Pourtant l'existence de cette limite me semble présenter un grand intérêt 
théorique, en montrant que, si le seuil de repérage n'est pas une limite 
définitive, le principe de son introduction est vraiment dans la nature des 
choses : la structure de l'univers, celle d'une loi de probabilité, sont 


presque impensables sous l'aspect du continu, 


Concluons : la grandeur du seuil expérimental de repérage n'est fixée 
que provisoirement, et nous chercherons à interpoler les résultats expéri- 
mentaux par des lois théoriques prévoyant l'utilisation de seuils plus 
petits ; mieux : mathématiquement nous irons jusqu'à prévoir une suite de 
seuils tendant vers zéro, et nous utiliserons pour cela des fonctions 
continues. Mais la suppression du seuil n'est jamais envisagée que comme 
une limite, c'est en partant de la notion de seuil et de lois discontinues 
que nous arriverons à définir des lois continues. Le concept de continu 
n'est qu'un concept idéal, forgé artificiellement par l'esprit humain pour 
la commodité des raisonnements - peut-être aussi pour anticiper sur les 
résultats de l'expérience : mais le principe de HEISENBERG ne per- 
met plus guère ce genre d'interprétation. 
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Ces remarques conduisent à une modification considérable dans la 
manière d'envisager une fonction d'isomorphie. 
Jusqu'à présent,nous considérions les lois de probabilité discontinues , 
Xi 


Pp;., représentées aussi par p; = f(x) À xi; ou par pi = - f(x) dx et 
i- 


c'est la fonction : 55 pr qui nous intéressait. La fonction expérimentale 


1rt ER #3 
né) devait être voisine de la précédente et converger en probabilité 
vers elle pour un nombre infini d'épreuves. Ce fait reste exact, mais dans 


- 1+t 
les calculs il était plus commode d'utiliser, au lieu de : 3, D. ir 
1+t 
valeur approchée À st s) £ (x) dx. 
Pourquoi ne pas introduire systématiquement cette dernière ? 


Il y à une difficulté : 2 us. , converge en probabilité rigoureusement 
vers la première, et d'une manière approchée seulement vers la seconde ; 
on peut éviter cet inconvénient en substituant aux fi discontinus une 
fonction g(x) d'interpolation choisie ''au mieux'', et si le choix en est 
satisfaisant, la convergence en probabilité redeviendra parfaite : 


PECR dx — fa" dx presque sûrement 


Résumons-nous : 


Le calcul des probabilités et la statistique sont deux sciences profon- 
dément différentes, l'une abstraite, l'autre expérimentale mais dont chacune 
a besoin de l'autre, Si l'expérience a besoin de la théorie pour l'expliquer, 
inversement le calcul des probabilités ne peut clairement définir certaines 
notions qu'en fonction de ses applications statistiques ; un exemple frap- 
pant est fourni par la dualité entre module de dépendance, notion abstraite, 
définie à l'aide de la statistique ,et : module de corrélation, notion statisti- 
que définie à l'aide du calcul des probabilités. De même la fonction 
d'isomorphie a été définie d'abord rigoureusement en statistique, et d'une 
façon approchée en calcul des probabilités. Mais on pourra maintenant 


regarder comme rigoureuse la définition théorique par une intégrale, et 
comme approchée la définition statistique par une somme, 


Dès lors, on remplacera partout le signe # par le signe = ,et 
réciproquement. 


APPLICATIONS - 


Les réflexions précédentes sont absolument nécessaires pour poser 
comme il convient le problème expérimental des variables canoniques. 


Supposons qu'un ensemble d'événements ait été repéré à l'aide des 
deux phénomènes [i] et [j] (ou, si l'on préfère, des deux variables 
xjety;). Si [i] et [j] ne sont pas indépendantes nous le reconnaîtrons 
expérimentalement à ce que le module de corrélation Q'j est trop éloigné 
de zéro, Nous chercherons alors à grouper autrement les événements, 
suivant des lignes [K] et des colonnes [£] :nous pourrons chercher le 
groupement pour lequel Q'k est'le plus petit possible. Evidemment, à 
moins de mettre toujours les événements sur une seule ligne, le minimum 


ÉTUDE INTRINSÈQUE DE LA COMPOSITION 155 


de Q' ne sera pas en général zéro (comme c'était le cas avec des varia- 
bles continues) .Mais cela provient de ce que nous avons affaire,ici, à des 
cases que nous nous interdisons de 
fractionner. La figure ci - contre 
montre comment devrait être fait le 
quadrillage avec les variables conti- 
nues canoniques X Ÿ : au lieu de cela, 
notre procédé groupe les cases ij en 
files se rapprochantie mieux possible 
des sortes de rubans X, X + A'X ,et 
par les indices K ,£ définis précédem- 
ment, ne représentent qu'approxima- 
tivement la décomposition en variables 
canoniques, 


Y4 


Néanmoins, on pourra pratique- 
ment admettre que le groupement K,£ 
qui donne à Q'la plus petite valeur, 
donne une idée convenable des varia- 
bles cherchées X, Y, ce qui fournira un procédé pour obtenir celles-ci. 
C'est le procédé qu'on pourra employer lorsque la distribution fi, ne 
suggérera pas une loi de probabilité simple. 


1 


Lorsqu'au contraire les fi; seront bien représentés par une densité 
de probabilité continue simple, f (x, y), il vaudra mieux commencer par 
rechercher les décompositions canoniques de celles-ci, et en déduire les 
variables X (x , y) et Y (x, y) correspondantes. 


Il ne semble guère possible d'en dire plus sur ce problème, tant que 
des applications concrètes n'en auront pas été faites, qui préciseront dans 
quel sens orienter des recherches plus complètes, 


Nous allons seulement indiquer comment, à cette question, se rattache 
celle de la ‘liaison fonctionnelle'' entre deux variables x;i , xj,ou deux 
phénomènes {[i] et [j] . 


LA NOTION DE LIAISON FONCTIONNELLE - 


Habituellement on admet qu'il existe une notion de liaison fonctionnelle 
parfaite,tout comme il en existe une d'indépendance stochastique parfaite, 
et l'on cherche à caractériser cette liaison parfaite par une équation de la 
forme F(p,, ... , p,) = 0 . En écrivant alors que F est, non plus nul, mais 
petit, on aura le ''voisinage'' de la liaison fonctionnelle. On sait que ce 
procédé n'a donné de résultat que pour la liaison biunivoque, qui n'est au 
fond qu'une liaison linéaire. Pour éclairer le problème, nous le poserons 
comme nous avions posé celui du ''degré!' d'indépendance : 


Le "degré" de liaison sera la vraisemblance pour que des fi; donnés 
aient été produits par des p;; en liaison fonctionnelle. 


On s'aperçoit alors que ce problème n'a rien de commun avec celui de 
l'indépendance, et que les méthodes usuelles pour le traiter ne peuvent 
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conduire qu'à des calculs absurdes : car si un p;;j-est nul,il est impossible 
que le fij correspondant ne le soit pas. ; 

A moins d'introduire la notion d'erreur expérimentale : seule une 
erreur peut produire un événement qui, dans les conditions théoriques 
admises, avait une probabilité nulle. Il n'y a pas de liaisons fonctionnelles 
plus ou moins fortes ,il n'y a que des liaisons fonctionnelles parfaites plus 
ou moins masquées par des erreurs expérimentales. 

Si donc un phénomène {[ij] établit entre [i] et [j] ou x; et y; une 
liaison fonctionnelle, nous le reconnaîtrons à ce que {ij] peut être repré- 
senté par une variable z (x , y) combinée avec une variable d'erreur ou 
fperturbation'! , Ÿ ; cette dernière étant assujettie à certaines conditions. 
Nous admettrons les conditions suivantes : 


1°) Y petit (ne pouvant pas dépasser une certaine limite Ÿ,. avec 
une probabilité appréciable: à nous de fixer chaque fois %, . suivant les 
données de l'expérience). 


2°) Il semble raisonnable d'admettre l'indépendance de (RAC HdENRZE 
mais cette condition ne nous sera pas utile. 


3°) Nous pourrons fréquemment supposer Ÿ gaussien. 


Au lieu de parler des variables z et Ÿ nous reviendrons à notre nota- 
tion habituelle [K] pour z et [£] pour * ..On voit que le problème posé 
est celui d'une décomposition canonique de [ij] en [K] et [£] , avec 
des conditions pour [£] . 


Or, sous la condition d'indépendance entre [K] et [£] , nous 
connaissons la somme des incertitudes : 


Hy + He = Hkge = Hij ; sinon HKk + He > Hi 


La première condition imposée à Ÿ nous donnera une limite € pour 
H4 . Nous devrons donc avoir : 


E. > HN NH, MUR 


Où : 


Tout le problème consistera alors à juger si une telle valeur de H, 


est ou non admissible, et pour cela nous en chercherons une limite 
supérieure. 


Il n'est pas possible de donner pour cette recherche une méthode 
générale. Si on a des raisons de penser qu'à chaque valeur de x ne doit 
correspondre qu'une valeur de zx ,alors Hj estune évaluation satisfaisante 
de Hxsles pK n'étant pas très différents des Pi .Si au contraire on suppose 
zx uniforme en yj ,c'est Hj qu'il conviendra d'envisager ; s'il est uniforme 
par rapport aux deux, nous retrouvons la notion classique de liaison 
biunivoque avec la condition W;; #1 étudiée au chapitre IV, Une autre hypo- 
thèse intéressante est la suivante : 


ÉTUDE INTRINSÈQUE DE LA COMPOSITION 157 


Dans le domaine étudié, les diverses valeurs de zx ont sensiblement 
même probabilité. 


S'il en est ainsi, HK« est à peine inférieure à : A , À étant le 
nombre de valeurs distinctes de z , c'est-à-dire le nombre de cases rem- 
plies par z . On entire : 


1H; - € 


ce qui fournit une limite inférieure de À : si par exemple le tableau des 
fi j] est à 10 lignes et 10 colonnes, un À de l'ordre de 12 à 15 est accep- 
table,tandis que À = 50 est incompatible avec lanotion pratique de courbe 
(une courbe de PEANO n'ayant vraiment pas de sens en statistique |). 
L'inégalité ci-dessus est toujours correcte, mais elle sous - évalue 
beaucoup trop À , sauf dans l'hypothèse indiquée. Si donc p, peut varier 
beaucoup dans le champ du tableau, nous devrons chercher pour HKx des 
évaluations plus serrées. Nous pourrons par exemple faire sur zx l'hypo- 
thèse de la normalité, calculer son indice Vyx = Vij - l en admettant 
que a soit gaussien, et nous servir de 


V 
2. RSA Po = 4 2 + Hk 
< 1 VK 
D'où : Hé ss Hit se 
Po 


Cette inégalité fournit une limite supérieure pour p, , probabilité maxima 
des z, . Or nous pourrons assez bien évaluer p, , en prenant par exemple 
le plus grand des p; ou le plus grand des p; , et nous verrons si l'inégalité 
précédente est ou non acceptable, 


On voit que la notion de liaison fonctionnelle est beaucoup moins 
simple que celle de corrélation, et que son étude ne peut guère être 
entreprise sans l'analyse intrinsèque. 


CONCLUSIONS GÉNÉRALES 


Quelques problèmes théoriques demeurent,qu'il importerait de pou- 
voir résoudre. Le plus intéressant est celui de la décomposition des 
fonctions d'holomorphie. Le plus important, sans doute, est celui de 
l'évaluation du X? à l'aide des fonctions spécifiques. Enfin, il serait sou- 
haïitable de connaitre les fonctions spécifiques de certaines lois impor- 
tantes : binôme, POISSON ; mais à cet égard les types de PEARSON sont 
précieux; car ils conduisent à des intégrales qui s'expriment par les fonc- 
tion eulériennes, et que l'on peut donc calculer par les tables classiques. 


Mais c'est de l'application de l'analyse intrinsèque à des problèmes 
expérimentaux que l'on doit attendre la justification éventuelle des 
méthodes que nous avons exposées, L'expérience seule nous apprendra si 
ces méthodes sont fécondes, et si les hypothèses qui en constituent le 
fondement sont légitimes. Et parmi les champs d'applications possibles, 
c'est sans doute la biologie, ou, comme disent les Anglais, la ‘'biométrie!! 
qui fournira le meilleur terrain d'expérience, 
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